GPT-3.5나 GPT-4 같은 대규모 언어 모델은 인터넷에서 다양한 콘텐츠를 학습시켜 사용자 질문과 프롬프트에 응답한다. 오픈AI가 2023년 8월 기술 문서 등을 공개한 웹 크롤러 GPT봇(GPTBot)은 액세스가 허가된 웹사이트에서 자동으로 정보를 취득해 GPT-4나 앞으로 공개될 GPT-5 등 대규모 언어 모델을 개선하는데 도움이 될 것으로 알려져 있다.
오픈AI는 8월 자사 AI 제품을 학습하는데 사용되는 웹 크롤러 GPT봇을 공개했다. GPT봇에 의한 학습은 AI 모델 정밀도 향상과 일반적인 능력, 안전성 개선에 도움이 될 가능성을 시사하고 있다.
한편 앞으로 등장하는 오픈AI 제품에 자사 사이트 콘텐츠를 무단으로 사용하고 싶지 않다는 생각을 할 수도 있다. 따라서 오픈AI는 GPT봇에 의한 크롤링을 차단하는 방법을 소개하고 있다. GPT봇에 의한 사이트에 대한 액세스를 완전 차단하려면 디렉터리 내 파일(robots.txt)에 코드(User-agent: GPTBot Disallow: /)를 추가하면 된다. 또 특정 디렉터리나 파일 등 사이트 일부 콘텐츠에 액세스할 수 있는 경우 마찬가지로 코드를 수정(User-agent: GPTBot , Allow: /directory-1/ , Disallow: /directory-2/)하면 된다.
또 오픈AI는 GPT봇을 포함한 오픈AI에서 사용하는 크롤러 IP 주소도 공개하고 있으며 IP 주소별로 액세스 거부를 수행할 수도 있다. 오픈AI에 대해선 지금까지 사용자에게 동의를 요구하거나 경고하지 않고 인터넷상 콘텐츠를 이용해 학습해온 것에 대해 저작권이나 프라이버시 등 관점에서 다양한 논의나 소송 대상이 되어왔다.
보도에선 GPT봇 공개로 콘텐츠 소유권, 페어유스, 콘텐츠 제작자에게 인센티브를 둘러싼 복잡한 논의에 첫걸음을 내딛었다고 평가했다. 오픈AI는 유료 콘텐츠나 개인 정보를 포함한 콘텐츠, 당사 정책에 반하는 텍스트를 포함한 콘텐츠는 GPT봇에 의한 액세스 대상에서 제외되며 필터링 대상이 되어 미래에 새로운 언어 모델 개선에 도움이 될 것이라고 밝혔다. 또 GPT봇에 의한 웹페이지 크롤링을 허용해 AI 정확성과 프라이버시 향상, 가능성 확대에 기여할 수 있다고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.