Home Artificial Intelligence 일본도 LLM 개발 추격 중…내년초 일부 출시

일본도 LLM 개발 추격 중…내년초 일부 출시

0
일본도 LLM 개발 추격 중…내년초 일부 출시

일본 후지쯔의 후가쿠 슈퍼컴. (사진=RIKEN)

일본이 세계 최고 수준의 슈퍼컴퓨터를 동원해 ‘일본판 챗GPT’ 개발에 나선 것으로 알려졌다. 오픈AI의 ‘챗GPT’ 등이 일본어 정확성이 떨어진다는 지적에 따라, 다수 기업이 일본어 기반 LLM 개발에 매달리고 있다는 소식이다.

네이처는 15일(현지시간) 후지츠, 도쿄공업대학, 이화학연구소(RIKEN), 도쿄기술연구소 등이 협력해 일본어를 기반으로 한 LLM 개발에 착수했다고 소개했다. 

이에 다르면 이번 LLM 개발에는 일본 슈퍼컴퓨터 ‘후가쿠(Fugaku)’가 사용된다. 후가쿠는 후지츠와 이화학연구소가 국비 약 1100억엔(약 1조500억원)을 지원받아 2014년 개발했다. 2020년 6월부터 이듬해 6월까지 세계 슈퍼컴퓨터 평가에서 3회 연속 종합 1위를 차지하는 등 세계 최고의 성능을 자랑하고 있다.

연구팀은 후가쿠를 사용해 트랜스포머 알고리즘 기반으로 300억개의 매개변수를 갖춘 LLM을 독자적으로 개발할 계획이다. 특히 LLM 학습에는 온라인에 공개된 일본어 문서 데이터를 주로 사용한다. 연구팀은 연내에 기반기술 개발을 완료하고, 내년부터 일본 기업에 무상으로 제공할 계획이다.

이번 LLM 개발에는 영어나 다른 언어로 학습한 AI 시스템이 일본 언어와 문화의 복잡성을 파악하지 못한다는 지적이 많은 것도 주요 이유로 꼽힌다. 일본어의 문장 구조는 영어와 완전히 다르기 때문에, 챗GPT는 일본어 쿼리를 영어로 번역하고 답변을 찾은 다음 응답을 다시 일본어로 번역해야 한다.

영어의 글자 수는 26개에 불과한 반면, 일본어는 48개의 기본 문자 두 세트와 자주 사용하는 한자 2136개로 구성된다. 대부분의 한자는 2개 이상의 발음을 갖고 있으며, 드물게 사용되는 한자도 5만개 정도 존재한다. 이러한 복잡성을 감안할 때 일본어에 대한 한계를 극복할 수 있는 챗GPT의 대안 개발이 불가피한 현실이다.

한편 다른 일본 기업들도 이미 자체 LLM 기술을 상용화하고 있거나 상용화할 계획인 것으로 알려졌다. 

슈퍼컴퓨터 제조사 NEC는 지난 5월부터 일본어 기반의 LLM을 사용하기 시작했으며, 내부 보고서 작성 시간을 50%, 내부 소프트웨어 코드 작성 시간을 80% 단축했다고 주장했다. 또 지난 7월부터 고객에게 맞춤형 생성 AI 서비스를 제공하기 시작했다.

마츠푸미 오야마다 NEC 선임 수석연구원은 “금융, 운송 및 물류, 유통 및 제조 등 광범위한 산업 분야에서 사용될 수 있다”며 “코드 작성, 논문 작성 및 편집 지원, 기존 출판 논문 조사 등의 작업에 이를 활용할 수 있다”고 설명했다.

소프트뱅크도 지난 10일 자체 LLM 개발에 나선다고 밝혔다. 소프트뱅크는 일본어 텍스트로 훈련된 LLM에 200억엔(약 1800억원)을 투자하고 있으며 내년에 출시할 계획이다. 

미야카와 준이치 소프트뱅크 사장은 “GPT 기술 기반을 갖고 있는 회사는 일본 내에서 우리밖에 없다”며 개발자 1000명을 투입할 예정이라고 밝혔다. 소프트뱅크는 자사의 LLM이 대학, 연구 기관 및 기타 조직에서 사용될 것으로 기대하고 있다.

사카구치 게이스케 도호쿠대 교수는 “미국의 일부 기업만 기술을 보유하는 상황은 바람직하지 않다”며 “다양한 과제에 대처하기 위해서라도 일본이 기술을 확보하는 것이 중요하다”고 말했다.

박찬 기자 cpark@aitimes.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here