Home Artificial Intelligence 메타, 음악·오디오 생성 AI ‘오디오크래프트’ 오픈소스로 공개

메타, 음악·오디오 생성 AI ‘오디오크래프트’ 오픈소스로 공개

1
메타, 음악·오디오 생성 AI ‘오디오크래프트’ 오픈소스로 공개

(사진=메타)

오픈소스 인공지능(AI) 개발에 주력하는 메타가 이번에는 음악을 생성하는 AI 도구를 오픈소스로 공개했다.

메타는 2일(현지시간) 오디오와 음악 특화 생성 AI 도구인 오픈소스 프레임워크 ‘오디오크래프트(AudioCraft)’를 블로그를 통해 공개했다. 

오디오크래프트는 짧은 텍스트 설명이나 프롬프트로부터 고품질이고 사실적인 오디오와 음악을 생성하기 위한 것이다.

▲뮤직젠(MusicGen) ▲오디오젠(AudioGen) ▲인코덱(EnCodec) 등 3가지 생성 AI 모델을 포함하고 있으며, 이들은 각각 음악, 환경 소리 및 효과음을 생성하는 기능을 가지고 있다.

우선 뮤직젠은 텍스트를 입력하면 음악을 생성한다. 메타는 앞서 지난 6월 저작권을 소유하거나 이 목적을 위해 특별히 라이선스를 획득한 음악 총 2만시간 분량으로 사전 훈련한 뮤직젠을 공개한 바 있다. 이번에는 사용자가 자신의 음악 데이터 세트에서 모델을 훈련할 수 있도록 훈련 코드까지 공개했다. 

‘해변에 딱 맞는 중독성 있는 멜로디, 트로피컬 퍼커션, 경쾌한 리듬이 있는 팝 댄스 트랙’과 같은 프롬프트를 입력하면 다양한 장르의 노래를 만들 수 있다.

오디오젠은 텍스트 프롬프트로 음향 효과와 같은 오디오를 생성하는 도구다. 개 짖는 소리, 자동차 경적 또는 나무 바닥을 밟는 소리와 같은 음향 효과를 생성할 수 있다.

오디오젠은 대부분 이미지 생성 AI와 같은 ‘확산 기반’ 모델이다. 오디오 또는 이미지와 같이 완전히 노이즈로 구성된 시작 데이터에서 점차 노이즈를 제거하는 방법으로 프롬프트에 단계적으로 가깝게 이동하는 식이다. 오디오젠은 프롬프트에서 사람 음성을 생성할 수도 있다.

인코덱은 적은 잡음으로 높은 품질의 음악을 만드는 역할을 수행한다. 모든 종류의 오디오를 압축하고 원래 신호를 복원하도록 특별히 훈련한 신경망 기반 오디오 압축 코덱이다. 오디오를 지나치게 많이 조작할 때 발생하는 아티팩트가 적은 오디오를 만들 수 있다.

오디오크래프트 (사진=메타)
오디오크래프트 (사진=메타)

메타는 “생성 AI 시장에서 이미지, 영상, 텍스트에 대한 이야기는 많이 나왔지만, 오디오는 다른 분야에 비해 약간 뒤처진 상황”이라고 지적했다.

이어 “오디오크래프트는 음악가와 사운드 디자이너에게 영감을 주고 새로운 방식으로 작곡을 할 수 있도록 돕는 도구”라며 “사람들이 오디오 크래프트로 무엇을 만들지 기대된다”라고 말했다.

한편 메타가 AI 기반 오디오 및 음악 생성기를 실험한 최초의 회사는 아니다. 오픈AI는 2020년에 ‘쥬크박스(Jukebox)’를 선보였고, 구글은 1월에 ‘뮤직LM(MusicLM)’을 선보였으며, 지난 12월에는 독립적인 연구팀이 스테이블 디퓨전을 기반으로 ‘리퓨전(Riffusion)’이라는 텍스트-음악 생성 플랫폼을 만들었다.

그중 어느 것도 많은 관심을 끌지는 못했지만, 메타는 앞서 무료로 공개한 대형언어모델 ‘라마’와 마찬가지로 오픈소스 방식으로 오디오크래프트를 공개해 주목받고 있다.

오디오크래프트 모델과 코드는 깃허브를 통해 사용할 수 있다.

박찬 기자 cpark@aitimes.com

1 COMMENT

LEAVE A REPLY

Please enter your comment!
Please enter your name here