멀티모달

2023년 음악 생성 AI, 누가 혁명을 이끌었나

뉴튠(대표 이종필)은 지난 9월 텍스트 프롬프트로 배경음악을 생성하는 '믹스오디오 DJ' 데모 버전을 출시한 데 이어 11월에는 세계 최초로 텍스트 프롬프트와 이미지, 음악 등의 입력이 가능한 멀티모달 BGM 음악 생성기 ‘믹스오디오(Mix.audio)'를 선보인 국내 대표 음악...

구글, ‘제미나이’ 시연 영상 조작 논란…”편집한 것 맞아”

https://www.youtube.com/watch?v=UIZAiXYceBI 구글이 6일 '제미나이 1.0' 발표 당시 공개한 시연 영상으로 조작 논란에 휩싸였다. 실시간 진행이 아닌 것은 물론 일부 영상을 보기 좋도록 사실과 다르게 수정했다는 의혹이 쏟아졌는데, 결국 이를 인정했다. CNBC와 BBC 등은 8일(현지시간) 구글이 공개한 제미나이...

MS, 심층 검색·멀티모달 강화로 ‘코파일럿’ 업그레이드

마이크로소프트(MS)는 검색과 멀티모달 기능을 강화한 ‘MS 코파일럿’ 업데이트를 5일(현지시간) 선보였다. MS는 공식 블로그를 통해 몇가지 새로운 코파일럿 기능을 발표했다. 새 기능 중 일부는 바로 사용할 수 있으며, 나머지 기능도 가까운 시일 내 출시될 예정이다. MS는 최근...

스캐터랩 “F 같은 이루다, T 같은 챗GPT와 다른 근본적인 이유는”

"대화라는 영역은 지식 전달이 전부는 아닙니다. 똑똑한 '챗GPT'를 좋아하는 사람이 있다면, '이루다'를 좋아하는 사람도 있을 겁니다. 앞으로 'AI 컴패니언(친구)'은 새로운 세상을 만들어 갈 겁니다." 챗봇 이루다로 유명한 스캐터랩(대표 김종윤)은 지난 17일 경량 대형언어모델(sLLM) '핑퐁-1(Pingpong-1)'을 공개했다....

음성과 소리를 동시에 이해하는 멀티모달 모델 공개

사람의 음성이나 소리, 음악과 같은 다양한 오디오 입력을 듣고 이해하고 추론할 수 있는 인공지능(AI) 시스템이 등장했다. 기존 음성을 텍스트로 전환하는 STT(음성 텍스트 전환) 방식을 넘어, 다양한 유형의 오디오를 동시에 학습하고 이해할 수 있는 '오디오...

메타, 100개 언어 실시간 음성 번역하는 AI 모델 출시

메타가 최대 100개 언어를 실시간 번역하고 기록할 수 있는 인공지능(AI) 모델을 출시했다. 이 모델은 실시간으로 언어 간 의사소통을 가능하게 하는 도구의 기반이 될 전망이다.  메타는 '심리스M4T(SeamlessM4T)'라는 이름의 새로운 언어 번역 AI 모델을 출시한다고 22일(현지시간) 블로그를...

Recent posts

Popular categories

ASK ANA