Home Artificial Intelligence “오픈 소스라고 모두 싼 게 아냐…멀티 LLM이 가장 효율적”

“오픈 소스라고 모두 싼 게 아냐…멀티 LLM이 가장 효율적”

0
“오픈 소스라고 모두 싼 게 아냐…멀티 LLM이 가장 효율적”

(사진=메타)

‘라마 2’와 같은 오픈 소스 대형언어모델(LLM)을 사용하는 것이 오픈AI의 ‘GPT’같은 고급형 모델을 활용하는 것보다 더 비싼 구체적 사례가 등장했다. 최근 지적되는 대로 작업에 맞춰 첨단 모델과 경량 모델을 번갈아 사용하는 ‘멀티 LLM’이 효과적이라는 결론이다. 

디 인포메이션은 2일(현지시간) 오픈 소스 LLM 사용을 지원하는 스타트업 베이스텐의 말을 인용, 메타의 오픈 소스 LLM ‘라마 2’가 경우에 따라서는 오픈AI의 ‘GPT-3.5’보다 50~100% 더 비용이 들어간다고 소개했다.

이에 따르면 오픈 소스 LLM이 저렴한 경우는 기업이 자체 데이터셋으로 미세조정을 거쳐 맞춤형 모델을 구축할 경우에만 한정되는 것으로 나타났다. 이 경우 베이스텐은 라마 2 기반 맞춤형 모델의 운영 비용은 오픈 AI의 ‘GPT-3.5-터보’의 4분의 1에 불과하다고 밝혔다. ‘GPT-4’는 라마 2보다 비용이 무려 15배 가량 들어간다.

그러나 라마 2가 항상 저렴하지는 않다고 소개했다. 그 예로 사용자들이 챗봇을 직접 만들 수 있게 해주는 앱인 사이퍼를 사례로 들었다.

안드레아스 호머 사이퍼 공동창업자는 앱을 각각 라마 2와 GPT-3.5-터보에 맞물려 테스트했다. 그 결과 라마 2에서는 한달간 구글 클라우드 비용이 1200달러(약 157만원)나 나왔지만, GPT-3.5-터보를 사용하면 5달러(약 6600원) 밖에 들지 않았다고 밝혔다. 호머 창업자는 “결과가 충격적이었다”라고 털어 놓았다.

이는 요약이나 번역같은 간단한 작업을 처리하는 데에는 오픈 소스 모델을 사용하는 효과적이지만, 사이퍼와 같이 코드를 생성하거나 고급 추론을 요구하는 작업에는 첨단 LLM이 더 효과적이기 때문이다.

베이스텐은 모델을 구동하는 특수한 서버 활용 방식에서 그 이유를 찾을 수 있다고 설명했다.

오픈AI는 고객으로부터 받은 수백만건의 요청을 묶어 일괄 처리된 쿼리를 서버의 칩으로 보내 동시에 처리한다. 반면 오픈 소스 AI를 사용하는 사이퍼의 클라우드 제공업체는 수백만건의 요청을 일괄 처리할 수 있을 만큼 충분한 서버 칩을 확보하지 못할 수 있기 떄문이다.

나빈 라오 데이터브릭스 이사도 “이는 대부분 기업이 오픈AI처럼 필요한 만큼 서버 칩을 구비하고 활용하지 못한다는 것을 의미한다”라고 지적했다.

오픈 소스 LLM을 미세조정해 맞춤형으로 사용하는 것은 많은 기업이 선호하는 방식이다. 최근 프랑스 스타트업 미스트랄이 내놓은 오픈 소스 모델이 주목받는 것도 라마 2보다도 비용을 더 줄였다고 밝혔기 때문이다.  

하지만 오픈 소스 LLM로 모든 작업을 처리하는 것이 효율적이지 않다는 것은 최근 계속 지적되는 사실이다. 사이퍼 사례는 이를 극단적으로 보여준 것으로, 베이스텐도 “다수의 오픈 소스 모델과 일부 고급 모델을 작업에 맞춰 번갈아 사용하는 ‘멀티 LLM’이 비용 절감에 가장 효과적”이라고 밝혔다.

또 GPU 품절로 인해 클라우드 제공업체의 칩 확보가 어려워지며, 데이터 처리양이나 쿼리에 맞춰 유동적으로 AI 칩의 수를 늘리거나 줄일 수 있도록 하는 등 비용을 줄이기 위한 기술도 계속 등장하고 있다.

이처럼 LLM의 비용 문제가 강조되는 가운데 오픈AI가 6일 개발자 컨퍼런스에서 발표할 내용이 주목받고 있다. 

오픈AI는 애플리케이션 개발 비용을 최대 20배까지 절감할 수 있는 기술을 공개할 예정이다. 이는 메모리로 대화 기록을 유지, 개발자의 애플리케이션 개발 비용을 줄일 수 있는 ‘상태 저장 API’로 알려졌다.

박찬 기자 cpark@aitimes.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here