생성형 AI 인기로 인해 모델 훈련과 추론에 사용되는 콘텐츠 수요가 급증하고 있으며 일부 AI 기업은 웹 스크래핑용 봇을 이용해 데이터를 수집하고 있다. 콘텐츠 전송 네트워크(CDN)인 클라우드플레어(Cloudflare)가 AI 학습용 웹 스크래핑을 수행하는 봇을 일괄 차단하는 기능을 도입했다고 발표했다.
AI 학습에 사용되는 데이터셋을 준비하려면 방대한 데이터가 필요하다. 따라서 일부 AI 기업은 학습용 데이터를 수집하는 AI 봇을 가동해 웹 스크래핑을 통해 인터넷상 이미지와 사진을 수집하고 있다. 예를 들어 AI 검색 엔진인 퍼플렉시티(Perplexity)가 웹사이트 robots.txt를 무시하고 봇 크롤링을 금지한 웹사이트에서도 웹 스크래핑을 수행한 게 큰 화제가 됐다.
클라우드플레어가 2023년부터 2024년까지 관측한 AI 봇으로부터의 일일 요청 수를 보면 2023년 말 무렵부터 AI 봇 요청 수가 급증하고 있다. 클라우드플레어에 따르면 그 중에서도 요청 수가 많은 AI 봇 상위 4개는 틱톡 운영사인 바이트댄스(Bytespider), 아마존(Amazonbot), 앤트로픽(ClaudeBot), 오픈AI(GPTBot)이었다고 한다.
상위 1만 개 인터넷 도메인 robots.txt를 분석한 뒤 AI 봇별로 접근을 금지하고 있는 도메인 수를 보면 GPTBot이 가장 많이 금지되고 있지만 마찬가지로 요청 수가 많았던 바이트스파이더봇이나 클로드봇은 거의 금지되지 않고 있다.
클라우드플레어는 robots.txt를 적절히 준수하는 AI 봇을 차단할 수 있는 기능을 지난해 9월 도입했다. 하지만 robots.txt에서 AI 봇을 금지해도 사용자 에이전트를 위조하면 뚫릴 수 있다. 따라서 이번에 새롭게 발표된 게 robots.txt 준수 여부와 관계없이 모든 AI 봇을 원클릭으로 차단하는 기능이다.
클라우드플레어는 AI 봇 트래픽을 분석하고 AI 봇 탐지를 조정한다. 광범위하게 웹 스크래핑을 하는 것으로 확인된 불법 AI 봇에 대한 새로운 흔적이 발견될 때마다 AI 봇 차단 기능이 자동 업데이트된다고 한다. 또 AI 봇으로 의심되는 흔적이 발견되면 클라우드플레어에 신고할 수 있는 양식도 마련했다.
클라우드플레어는 고객은 AI 봇이 자사 웹사이트를 방문하는 것을 원하지 않는다며 그 중에서도 불법 행위를 하는 봇은 원하지 않는다고 강조했다. 콘텐츠에 접근하기 위해 규칙을 우회하려는 일부 AI 기업이 봇 탐지를 피하기 위해 집요하게 적응해 나갈 것을 우려하고 있다는 것. 관련 내용은 이곳에서 확인할 수 있다.