Home Artificial Intelligence 업스테이지, LLM 구축 앞서 저작권 해결 나섰다

업스테이지, LLM 구축 앞서 저작권 해결 나섰다

1
업스테이지, LLM 구축 앞서 저작권 해결 나섰다

(사진=업스테이지)

업스테이지가 자체 대형언어모델(LLM) 학습에 사용할 데이터 라이선스 확보를 위해 수익 배분에 나선다. 이를 통해 한국어 데이터를 수집, 고성능의 LLM을 구축한다는 의도다.

업스테이지(대표 김성훈)는 한국어 데이터 부족 문제를 해결하고 고성능 LLM 개발을 위해 ‘1T 클럽’을 발족한다고 14일 밝혔다.

1T 클럽은 ‘1트릴리온(1조) 토큰 클럽’의 준말로, 텍스트나 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 제공하는 파트너사로 구성한다. 한국어 데이터의 부족 문제 해결은 물론 데이터 제공자와 인공지능(AI) 모델 제작기업이 상생하는 생태계를 만들기 위한 새로운 도전이라는 설명이다.

업스테이지는 “1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써 한국 정서를 담아낼 수 있는 고품질의 LLM을 개발하고, 이를 통해 국내 생성 AI 다양한 분야의 애플리케이션에 활용해 AI 발전에 기여할 수 있을 것으로 기대한다”고 전했다.  

현재 20여개 언론사, 기업, 학계 등 데이터 제공자들과 파트너십을 위한 협의를 진행 중이다. 구체적으로 기업명을 밝힐 수는 없지만, 현재 상당 부분 논의가 진행됐다고 강조했다.

특히 1T 클럽 파트너사에 ▲데이터 제공량에 비례해 API 사용료를 할인해주고 ▲LLM의 API 사업으로 창출할 수익을 공유하는 등 두가지 방식으로 혜택을 제공할 계획이라고 밝혔다. 

API 사용료 할인의 경우, 파트너사는 기여 토큰수에 비례해 업스테이지 LLM의 API를 할인된 가격에 사용, 다양한 애플리케이션에 활용할 수 있다.

특히 업스테이지가 LLM의 API 사업으로 수익을 창출할 경우 그중 일부를 파트너사들과 공유하는 내용도 공개했다. 이를 위해 API 사업 수익의 일부를 재원으로 활용해 1T 클럽 수익 공유에 할당할 예정이며, 각 파트너사는 기여한 데이터 양에 비례해 수익을 받을 수 있다. 구체적인 수익 배분율은 밝히지 않았다.

이같이 AI 모델 학습을 위해 수익 배분 등으로 데이터 라이선스를 해결한다고 밝힌 것은 업스테이지가 국내 처음이다. 

해외에서는 ‘챗GPT’ 개발사인 오픈AI가 지난달 13일 AP와 라이선스 계약을 맺은 이후 다수 미디어와 협상 중인 것으로 알려졌다. 오픈AI와 구글 등은 이와 관련, 다수의 저작권 소송에도 휘말린 상태다. 

김성훈 업스테이지 대표가 지난 5월 기자간담회에서 향후 계획을 밝히고 있다.
김성훈 업스테이지 대표가 지난 5월 기자간담회에서 향후 계획을 밝히고 있다.

업스테이지 관계자는 “자체 LLM 개발을 위해서는 양질의 고급 데이터를 모으는 게 중요하지만, 윤리적으로 모으는 것이 더 중요하다고 생각해 데이터 제공자와 모델 개발자가 상생할 수 있는 생태계를 만들고자 하는 마음으로 시작했다”고 밝혔다. 

한편 업스테이지는 다양한 업계의 대표 기업들과 ‘프라이빗 LLM(비공개 기업전용 LLM)’ 구축 협의는 물론 한국어 LLM 발전에 기여할 다양한 분야의 파트너사들과 협력을 추진할 계획이라고 전했다. 1T 클럽에 관심 있는 기관은 업스테이지 공식 홈페이지를 통해 신청서를 제출할 수 있다. 

김성훈 업스테이지 대표는 “LLM은 오늘날 생성 AI의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다”며 “우리는 1T 클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다할 것”이라고 말했다. 

이주영 기자 juyoung09@aitimes.com

1 COMMENT

LEAVE A REPLY

Please enter your comment!
Please enter your name here