인공지능(AI) 전문 트웰브랩스(대표 이재성)가 영상을 이해하는 대형 AI 모델 ‘페가수스’를 9일 정식 공개했다.
페가수스는 트웰브랩스가 자체 개발한 매개변수 800억 규모의 모델로, 대형 영상 언어 생성모델(VLFM, Video Language Foundation Model)이라고 소개했다.
이는 긴 영상을 사람처럼 정확하고 정교하게 텍스트로 요약하고, 챗GPT를 사용하듯 영상에 관한 자유로운 질의응답을 가능한 이전에 존재하지 않았던 모델이라고 소개했다.
페가수스 개발을 위해 세계 최대 규모의 영상-텍스트 쌍 3억여개로 구성된 데이터셋 중 약 10%인 3500만개를 자체 구축, 학습에 활용했다고 설명했다.
트웰브랩스는 현재까지 공개된 VLFM 중 페가수스는 최고 모델 대비 최대 61%의 성능 우위를 보일뿐더러 개발자용 API 형태로 상용화해 즉시 도입이 가능하다고 강조했다.
또 최근 오픈AI가 발표한 멀티모달 LLM ‘GPT4-V’의 ‘텍스트-투-텍스트’나 ‘이미지-투-텍스트’를 넘어선 ‘비디오-투-텍스트’를 가능하게 한다는 점에서 차별성을 보인다고 전했다.
페가수스 공개로 영상 콘텐츠의 이해와 활용에 있어 새로운 장이 열릴 것으로 기대한다고 밝혔다. 페가수스는 현재 트웰브랩스 홈페이지 내 대기자 명단 등록을 통해 순차적으로 사용 가능하며, 내년 1분기부터는 대중에 공개할 예정이다.
트웰브랩스는 이미 스포츠, 미디어, 엔터테인먼트, 교육, 물리보안 등 다양한 산업별 글로벌 선도 기업들과 긴밀한 협업 관계를 구축하고 있다고 전했다. 최근에는 국내에서도 세종특별자치시, 과학기술정보통신부, 한국인터넷진흥원과 함께 차세대 지능형 영상 관제 실증 사업을 진행하는 등 핵심 활용 사례들을 중심으로 빠르게 사업 영역을 넓혀나가고 있다.

한편 트웰브랩스는 미국에서 주로 활동하는 국내 스타트업이다. 멀티모달 신경망 기술을 바탕으로 한 기술력을 인정받아 글로벌 시장조사 기업 CB 인사이트 선정 ‘세계 100대 AI 기업’ 및 ‘세계 50대 생성 AI 스타트업’에 선정되기도 했다.
또 최근 엔비디아, 인텔, 삼성넥스트, 한국투자파트너스 등으로부터 1000만달러(약 140억원) 규모의 전략적 투자를 유치하며 화제를 모은 바 있다.
이재성 트웰브랩스 대표는 “2021년부터 인간과 유사한 수준의 영상이해 기술 구현을 위해 꾸준히 노력해 왔다”라며 “페가수스 모델이 물리보안 영상들에 대한 자동 리포트 생성, 스포츠 영상 하이라이트 생성 등 다양한 산업계에서 오랫동안 해결하지 못했던 문제들의 솔루션이 되길 바란다”라고 말했다.
이주영 기자 juyoung09@aitimes.com