오픈AI는 8월 대규모 언어 모델 학습에 필요한 데이터세트를 인터넷에서 수집하기 위한 웹 크롤러인 GPT봇(GPTBot)에 대한 자세한 내용을 공개했다. GPT봇에 관한 온라인 문서는 GPT봇에 의한 콘텐츠 수집을 방지하는 방법을 소개하고 있어 일부 웹사이트는 곧바로 GPT봇 차단에 나서고 있다는 보도가 나오고 있다.
텍스트와 이미지를 생성하는 AI에 탑재된 GPT-4 같은 대규모 언어 모델은 모델을 학습하기 위해 많은 양의 데이터세트가 필요하다. 데이터세트 중에는 인터넷상에서 수집된 다양한 콘텐츠도 포함되어 있으며 GPT-3.5가 학습에 이용한 비영리단체인 커먼크라울(Common Crawl)이 제공하는 오픈소스 데이터세트는 2008년 이후 인터넷에서 수집한 45TB 텍스트로 이뤄져 있다고 한다.
이런 데이터세트 중에는 저작권으로 보호된 콘텐츠나 원래라면 요금을 지불하지 않으면 구독할 수 없는 유료 기사, 일반인 개인 정보 등이 포함되어 있는 게 문제시되고 있다. 2023년 6월에는 챗GPT 학습에 사용된 데이터세트가 저작권과 개인정보를 침해한 것으로 캘리포니아에 본사를 둔 클락슨법률사무소가 오픈AI에 집단 소송을 제기했다.
AI 개발 기업은 이런 문제 제기를 받아 AI 학습에 저작권이 깨끗한 데이터세트를 활용한다는 대응에 육박하고 있다. 오픈AI는 8월 GPT-4나 앞으로 공개될 GPT-5 등 대규모 언어 모델 개선에 이용하는 웹 크롤러 GPT봇에 대한 자세한 내용을 온라인 문서에서 발표했다.
오픈AI는 유료 콘텐츠와 개인 정보를 포함한 콘텐츠, 당사 정책에 위배되는 텍스트를 포함한 콘텐츠는 GPT봇에 의한 액세스 대상에서 빼고 필터링 대상이 되어 새로운 미래 언어 모델 개선에 도움이 된다며 GPT봇에 의한 웹페이지 크롤링을 허용해 AI 정확성과 프라이버시 향상, 가능성 확대에 공헌할 수 있다고 밝히고 있다.
더구나 GPT봇에 관한 온라인 문서는 GPT봇에 의한 크롤링을 차단하는 방법에 대해서도 설명한다. GPT봇 액세스를 차단하려면 디렉터리 내 파일(robots.txt)에 코드 2줄을 추가하면 된다. 일부 웹사이트는 이 방법이 게시된 직후 응답하게 된다고 한다.
덧붙여 GPT봇 차단은 어디까지나 향후 데이터 스크래핑을 막는 것으로 벌써 수집되어 버린 콘텐츠에 대해선 영향을 미치지 않는다. 또 오픈AI 이외 데이터 스크래퍼가 수집한 데이터세트와 관련이 없기 때문에 오픈AI와 제휴하지 않은 AI 학습에는 GPT봇을 차단한 웹사이트 콘텐츠가 사용될 수 있다. 관련 내용은 이곳에서 확인할 수 있다.