Home Artificial Intelligence “해리포터가 누구?”…MS, AI 학습 데이터 중 특정 정보 삭제 기술 공개

“해리포터가 누구?”…MS, AI 학습 데이터 중 특정 정보 삭제 기술 공개

3
“해리포터가 누구?”…MS, AI 학습 데이터 중 특정 정보 삭제 기술 공개

(사진=워너브러더스)

인공지능(AI)이 학습한 데이터 중 문제가 있는 일부분만 삭제할 수 있는 기술이 공개됐다. 데이터 저작권 문제로 골머리를 앓는 빅테크에 돌파구가 될 수 있다는 분석이다.

벤처비트는 6일(현지시간) 마이크로소프트(MS) 연구진이 대형언어모델(LLM)에서 특정 정보를 삭제하는 방법을 온라인 논문 사이트 아카이브(arXiv)에 게재했다고 소개했다.

이에 따르면 로넨 엘던 MS 리서치 연구원 마크 러시노비치 MS 애저 연구원은 메타의 오픈 소스 LLM ‘라마 2 7B’ 모델에 포함된 해리포터에 대한 모든 지식을 삭제하는 데 성공했다. 논문의 제목도 ‘해리 포터가 누구? 대략적인  LLM의 학습 취소법(Who’s Harry Potter? Approximate Unlearning in LLMs)’이다.

연구진은 우선 LLM 모델을 훈련, 해리포터에 가장 관련이 있는 토큰을 식별했다. 이를 바탕으로 고유한 해리포터의 표현을 일반적인 표현으로 변경, 대체 예측을 생성했다. 마지막으로 대체 예측에 대한 기본 모델을 미세 조정, 해리포터가 언급될 때마다 메모리에서 원본 텍스트를 삭제했다.

해리포터 관련 표현을 일반적인 표현으로 변경한 예 (사진=arXiv)
해리포터 관련 표현을 일반적인 표현으로 변경한 예 (사진=arXiv)

연구진은 자동 생성한 300개의 프롬프트를 사용, 토큰 확률을 검사하는 식으로 LLM이 해리포터를 다시 언급하는 지를 테스트했다. 미세조정 이후 단 한시간이 지난 뒤 LLM이 “본질적으로 해리포터 시리즈의 복잡한 내러티브를 잊어버릴 가능성이 있다는 사실을 발견했다”라고 밝혔다.

특히 “LLM을 사전 훈련하는 데에는 18만4000시간 이상이 걸렸지만, 미세조정으로 이를 지우는 데에는 1시간밖에 걸리지 않았다”라며 “우리가 아는 한, 이 논문은 생성 AI 모델에서 학습 취소 기술을 제시하는 최초의 논문”이라고 강조했다.

논문 'Who’s Harry Potter? Approximate Unlearning in LLMs' (사진=arXiv)
논문 ‘Who’s Harry Potter? Approximate Unlearning in LLMs’ (사진=arXiv)

연구진은 이번 접근 방식은 기초를 제공하는 수준으로, 더 많은 연구와 테스트가 필요하다고 밝혔다. 또 이 기술은 뉴스 기사보다 소설과 같은 픽션에 더 효과적일 수도 있다고 덧붙였다. 소설 등에는 참고하기 쉬운 독특한 자료가 포함돼 있기 때문이다.

연구진은 “이번 연구는 앞으로 더 책임감 있고 적응력이 뛰어나며 법을 준수하는 LLM을 만들기 위한 기본 단계를 제공한다”라고 강조했다. 

벤처비트는 “LLM의 선택적 망각을 위한 기술은 점차 늘어나는 AI 요구 사항에 맞춰 여러 방면에서 도움이 될 수 있다”고 평가했다.

임대준 기자 ydj@aitimes.com

3 COMMENTS

LEAVE A REPLY

Please enter your comment!
Please enter your name here