Home Artificial Intelligence 엔비디아, 초소형 이미지 생성 AI ‘퍼퓨전’ 공개

엔비디아, 초소형 이미지 생성 AI ‘퍼퓨전’ 공개

0
엔비디아, 초소형 이미지 생성 AI ‘퍼퓨전’ 공개

퍼퓨전으로 생성한 이미지 (사진=엔비디아)

엔비디아가 새로운 이미지 생성 인공지능(AI) 도구인 ‘퍼퓨전(Perfusion)’을 공개했다. 퍼퓨전은 불과 100KB 크기의 모델과 4분의 훈련 시간으로 원하는 이미지를 생성하는 것을 특징으로 한다.

디크립트는 1일(현지시간) 엔비디아와 텔아비브 대학이 협력, 객체의 정체성을 유지하면서 동시에 개인화한 이미지를 생성할 수 있는 ‘퍼퓨전’이라는 소형 텍스트-이미지 생성 AI 도구를 개발했다고 전했다. 

보도에 따르면 퍼퓨전은 작은 크기의 모델과 짧은 훈련 시간에도 불구하고 효율성 측면에서 스테이블 디퓨전이나 미드저니와 같은 선도적인 AI 이미지 생성기의 성능을 능가한다.

핵심 아이디어는 ‘키 잠금(Key-Locking)’이다. 이 접근 방식은 이미지 생성 중에 ‘고양이’나 ‘의자’와 같이 사용자가 추가하려는  개념을 일반적인 범주로 확대한다. 즉, 고양이는 ‘고양이과’라는 더 넓은 개념과 연결한다. 

이렇게 하면 AI 모델이 정확한 훈련 샘플과 딱 맞아떨어지는 ‘과적합’에 치중하는 것을 방지할 수 있다. 과적합은 AI가 개념의 창의적인 버전을 생성하기 어렵게 만든다.

생성할 고양이를 고양이의 일반적인 개념에 연결함으로써, 모델은 다양한 포즈, 외모 및 주변 환경에서 고양이를 묘사할 수 있다. 그러나 그것은 임의의 고양이가 아니라 의도된 고양이처럼 보이게 만드는 본질적인 ‘고양이 속성’을 여전히 유지한다.

간단히 말해서 ‘키 잠금’을 통해 AI는 핵심 정체성을 유지하면서 사용자 지정 개념을 유연하게 렌더링할 수 있다. 마치 작가에게 “자고, 털실을 가지고 놀고, 꽃 냄새를 맡는 내 고양이 톰을 그려라”와 같은 지시를 내리는 것과 같다. 

키 잠금 유형에 따른 이미지 생성(사진=엔비디아)
키 잠금 유형에 따른 이미지 생성(사진=엔비디아)

퍼퓨전은 세가지 유형의 키 잠금을 제공한다. ‘글로벌 키 잠금’은 더 많은 시각적 가변성을 허용, ‘사람과 같은 자세로 책을 읽거나, 요리사 의상을 입은 고양이’를 묘사할 때와 같이 사물이나 활동의 뉘앙스를 정확하게 묘사할 수 있다. ‘로컬 키 잠금’도 유효하지만, 글로벌 키 잠금만큼 효과적이지 않다는 설명이다. 마지막으로 ‘트레인드-K(Trained-K)’라는 방식은 훈련 이미지와 호환성은 뛰어나지만, 대신 텍스트와의 유사성은 줄어드는 효과가 있다.

따라서 퍼퓨전은 별도로 개념을 학습해 단일한 결과물을 내는 기존 AI와 달리, 텍스트 프롬프트에 따라 학습한 여러 개념을 혼합해 단일 이미지로 결합할 수 있다. ‘개념’은 최종 이미지를 생성하기 위해 런타임 프로세스 중에만 개별적으로 학습하고 병합하기 때문이다.

그 결과로 사용자는 ‘고양이’ ‘선글라스’ ‘의자’와 같은 이미지를 병합한 텍스트 프롬프트를 통해 이미지 생성 프로세스를 도출할 수 있다.

여러 학습된 개념을 단일 생성 이미지로 결합 비교 (사진=엔비디아)
여러 학습된 개념을 단일 생성 이미지로 결합 비교 (사진=엔비디아)

퍼퓨전의 주목할 만한 기능 중 하나는 추론 중에 이미지 유사성과 텍스트 유사성 사이의 균형을 제어하는 ​​기능이다. 사용자는 재훈련할 필요 없이 단일 100KB 모델을 조정, 텍스트 유사성과 이미지 유사성 간의 균형을 조절하고 최적의 밸런스를 선택할 수 있다. 이 경우 편향 값을 높이면 이미지 유사성이 줄어들고, 편향 값을 낮추면 이미지 유사성이 커지는 식이다.

편향값 조정을 통한 이미지 유사성 및 텍스트 유사성 제어 (사진=엔비디아)
편향값 조정을 통한 이미지 유사성 및 텍스트 유사성 제어 (사진=엔비디아)

그러나 AI 모델을 너무 많이 미세조정하면 반복적인 결과가 나올 수 있고, 프롬프트를 엄격하게 따르면 좋지 않은 결과가 나올 수 있다. 생성기가 프롬프트에 얼마나 가깝게 도달하는지 조정하는 유연성이 중요한 부분이다.

덕분에 다른 AI 이미지 생성기에 비해 퍼퓨전은 뛰어난 이미지 유사성과 텍스트 유사성을 제공한다. 전체 모델을 재훈련해야 하는 방법과 달리 효율적인 크기 덕분에 미세조정 중 이미지 업데이트가 가능하다. 

엔비디아는 현재 퍼퓨전에 관한 연구 논문을 발표했으며, 가까운 시일 내 소스 코드를 공개할 계획이다.

박찬 기자 cpark@aitimes.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here