유튜브가 쇼츠(Shorts)에 사용할 수 있는 음악 생성 인공지능(AI) 도구를 공개했다. 유명 가수의 목소리로 새로운 곡을 만들어 내는 도구로, 틱톡이나 인스타그램과의 경쟁에서 우위를 확보하려는 의도다.
테크크런치는 16일(현지시간) 유튜브가 구글 딥마인드와 협력해 쇼츠용 음악 생성 AI 도구인 ‘드림 트랙 (Dream Track)’을 공개했다고 보도했다.
이에 따르면 드림 트랙은 딥마인드의 음악 생성 AI 모델 ‘리리아(Lyria)’를 기반으로 원하는 음악 유형을 텍스트 프롬프트에 입력, 보컬을 포함한 사운드트랙을 생성할 수 있는 서비스다.
특히 알렉 벤자민, 찰리 푸스, 찰리 XCX, 데미 로바토, 존 레전드, 시아, 티-페인, 트로이 시반 등 유명 가수 9명의 목소리와 스타일로 최대 30초 길이의 음악을 자동 생성할 수 있다. 예를 들어, 텍스트로 ‘찰리 푸스 스타일로 음악 만들어줘’라고 입력하면 아래 영상과 같이 생성된다.
찰리 푸스 스타일 음악 생성 (영상=유튜브)
또 리리아를 사용하면 사용자가 멜로디를 부르면 악기가 연주하는 음이 만들어지고, 음악과 악기 스타일을 바꿀 수도 있다. 예를 들어 MIDI 키보드로 생성된 음악을 사실적인 합창단의 목소리로 변경하거나, 포크 음악을 헤비메탈 스타일로 변경할 수도 있다.
MIDI 키보드를 합창단 소리로 생성 (영상=유튜브)
이와 함께 딥마인드는 AI 이미지를 식별하는 데 사용되는 ‘신스ID(SynthID)’를 리리아가 생성하는 AI 음악 워터마크에도 적용하고 있다고 밝혔다. 신스ID는 구글의 이미지 생성 AI 모델 ‘이마젠(Imagen)’이 생성한 이미지에 보이지 않는 흔적을 삽입해 AI가 생성한 이미지를 식별하는 워터마크 시스템이다. 신스ID를 사용하면 사용자는 음악 트랙이 리리아에서 생성됐는지를 확인할 수 있다.
한편 그동안 ‘챗GPT’나 ‘미드저니’ 등 다른 생성 AI에 비해 덜 주목받았던 음악 분야의 생성 AI가 최근 두드러지는 추세다.
스태빌리티 AI는 지난 9월에 확산 모델 기반으로 고품질 음악이나 음향 효과 오디오를 생성하는 생성 AI 모델 ‘스테이블 오디오’를 출시했었다. 지난 6월에는 메타가 텍스트와 멜로디 프롬프트로 음악을 생성해 주는 ‘뮤직젠(MusicGen)’이라는 생성 AI 모델을 공개했다.
이 외에도 음악 생성 AI로는 오픈AI의 ‘주크박스(Jukebox)’, 구글의 ‘뮤직LM(MusicLM)’, 스태빌리티 AI의 ‘댄스 디퓨전(Dance Diffusion)’ 등이 있다.
박찬 기자 cpark@aitimes.com