Home Artificial Intelligence 오픈AI, LLM 학습 데이터 긁어 모으는 ‘GPT봇’ 출시…차단 방법도 공개

오픈AI, LLM 학습 데이터 긁어 모으는 ‘GPT봇’ 출시…차단 방법도 공개

0
오픈AI, LLM 학습 데이터 긁어 모으는 ‘GPT봇’ 출시…차단 방법도 공개

(사진=셔터스톡)

오픈AI가 인터넷 콘텐츠를 긁어내 대형언어모델(LLM) 학습에 사용하는 ‘GPT봇(GPTBot)’을 조용히 출시했다. 더불어 GPT봇을 차단하는 방법도 공개했는데, 저작권 문제에 대비하는 것에 불과하다는 분석이 나왔다.

매셔블과 벤처비트 등은 8일(현지시간) 오픈AI가 별도 발표나 보도자료 배포 없이 홈페이지를 통해 GPT봇의 출시를 알렸다고 보도했다.

GPT봇은 방대한 웹 페이지를 뒤지며 각종 정보를 자동으로 수집하는 ‘웹 크롤러’ 프로그램이다. 또 AI 개발 회사가 인터넷에서 각종 데이터를 자동으로 찾아 끌어와서 LLM 학습 데이터를 확보하는 데도 사용한다.

오픈AI는 “GPT봇이 개인 식별 정보를 수집하거나 문제가 있는 콘텐츠 등 오픈AI의  정책을 위반하는 웹 페이지를 걸러내기 위해 사용한다”고 설명했다.

또 웹사이트 관리자는 웹크롤러에 대한 액세스를 제한하고 GPT봇이 부분적으로 또는 완전히 사이트에 액세스하지 못하도록 할 수 있다며 적용 예를 상세하게 소개했다.

사이트의 ‘robots.txt’와 ‘Disallow: /’에 GPT봇 토큰을 추가하면 GPT봇의 접근을 완전히 차단할 수 있다.

GPT봇 완전 차단(사진=오픈AI)
GPT봇 완전 차단(사진=오픈AI)

또 ‘robots.txt’, ‘Allow: /’directory-1/’, ‘Disallow: /directory-2/’ 등에 GPT봇을 추가하고 필요에 따라 사이트의 특정 부분만 크롤링하도록 허용하면 GPT봇의 웹사이트 접근을 부분적으로 허용할 수 있다.

GPT봇 부부 차단 (사진=오픈AI)
GPT봇 부부 차단 (사진=오픈AI)

그러나 이에 대해 벤처비트는 부정적인 의견을 내놓았다. 오픈AI가 그동안 ‘GPT-3.5’와 ‘GPT-4’ 학습에 웹 크롤러를 사용한다고 밝히지는 않았으나, 이미 잘 알려진 인터넷 데이터셋을 통해 LLM을 학습했다는 증거가 있다고 주장했다.

또 최근에는 저작권 문제로 집단소송까지 당한 상태로, 이번 GPT봇의 차단 방법 공개는 향후 벌어질 저작권 리스크를 줄이려는 의도로 보인다고 지적했다.

박찬 기자 cpark@aitimes.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here