클라우드플레어, AI 크롤러 무한 생성 미로에 가두는 기능 발표

클라우드 컴퓨팅 서비스 클라우드플레어가 불법 행위를 하는 봇을 AI가 생성한 미로에 가두는 AI 라비린스(AI Labyrinth)를 발표했다.

AI 트레이닝에 사용할 데이터를 인터넷에서 수집하는 데 사용되는 봇을 크롤러라고 한다. 크롤러는 인터넷에서 모든 정보를 수집하기 때문에 AI 기업은 생성형 AI 모델 트레이닝에 콘텐츠를 이용했다며 콘텐츠 제작자로부터 소송을 당하고 있다. 이런 움직임에 대처하기 위해 일부 AI 기업은 크롤러가 수집한 데이터를 AI 트레이닝에 이용하지 않도록 하는 옵션을 제공하고 있다. 또 AI 트레이닝용 수집을 실행하는 크롤러를 차단하기 위한 robots.txt도 존재한다. 하지만 AI 기업마다 서로 다른 크롤러를 사용하고 있으며 크롤러명도 자주 업데이트되기 때문에 일부 기업은 robots.txt 요구를 무시하는 경우도 있다.

3월 19일 클라우드플레어는 수집 금지 지시를 따르지 않는 크롤러를 혼란스럽게 하고 리소스를 낭비시키기 위한 새로운 접근 방식으로 AI 라비린스를 발표했다. AI 라비린스는 수집 금지 지시를 따르지 않는 크롤러를 감지하면 크롤러 요청을 차단하는 대신 크롤러가 이동하고 싶어할 만큼 설득력 있는 일련의 AI 생성 페이지 링크를 제공한다. 이 콘텐츠는 진짜처럼 보이지만 실제로는 AI가 생성한 콘텐츠이며 클라우드플레어가 보호하는 웹사이트 콘텐츠가 아니어서 크롤러는 시간과 리소스를 낭비하게 된다.

AI 라비린스는 설득력 있는 인간이 생성한 것 같은 콘텐츠를 생성하기 위해 오픈소스 모델인 워커스AI(Workers AI)를 사용해 다양한 주제에 대한 고유한 HTML 페이지를 만든다. 이 콘텐츠를 온디맨드로 생성하는 대신 크로스사이트 스크립팅(XSS) 취약점을 방지하기 위해 콘텐츠를 정제하고 더 빠르게 검색할 수 있도록 클라우드플레어 R2에 저장하는 사전 생성 파이프라인을 구현했다. 또 먼저 다양한 주제 세트를 생성한 다음 각 주제별로 콘텐츠를 생성해 더 다양하고 설득력 있는 결과를 얻을 수 있다는 걸 발견했다.

인터넷상 허위 정보 확산을 막기 위해 부정확한 콘텐츠를 생성하지 않는 것도 중요하므로 클라우드플레어는 생성되는 콘텐츠는 현실적이고 과학적 사실과 관련된 것이어야 하며 크롤링 대상 사이트와 관련이 없거나 독창적이지 않은 것이어야 한다고 설명했다. 클라우드플레어는 AI 라비린스를 무료 플랜을 포함한 모든 사용자에게 제공할 예정이다.

AI 라비린스가 생성한 콘텐츠는 페이지 원래 구조와 콘텐츠를 방해하지 않고 맞춤형 HTML 변환 프로세스를 통해 기존 페이지에 숨겨진 링크로 원활하게 통합된다. AI 라비린스가 생성하는 각 페이지에는 검색 엔진 인덱싱을 방지하고 SEO를 보호하기 위한 적절한 메타 지시어가 포함된다. 또 신중하게 구현된 속성과 스타일 설정을 통해 이런 링크가 인간 방문자에게는 표시되지 않도록 주의를 기울였다. 일반 사용자에 대한 영향을 최소화하기 위해 링크는 불법 크롤러로 의심되는 경우에만 표시된다. 정상 사용자와 검증된 크롤러는 평소대로 콘텐츠를 볼 수 있도록 설계됐다.

AI 라비린스 접근 방식이 효과적인 이유는 지속적으로 발전하는 봇 탐지 시스템에서의 역할에 있다. AI 라비린스가 만든 링크를 인간이 표시하거나 클릭하지 않기 때문에 링크가 클릭되면 즉시 크롤러에 의한 것임을 알 수 있다. 클라우드플레어는 이에 대해 강력한 식별 메커니즘을 제공하며 기계 학습 모델에 통합될 수 있는 귀중한 데이터가 생성된다고 설명했다. 어떤 크롤러가 어떤 링크를 따라가는지 분석함으로써 탐지되지 않을 수 있는 새로운 봇 패턴과 시그니처를 식별할 수 있게 되어 불법 크롤러에 대한 대응을 지속적으로 개선할 수 있게 된다.

참고로 AI 라비린스와 유사하게 AI가 생성한 미로에 크롤러를 가두는 기법이 개발되고 있다. 관련 내용은 이곳에서 확인할 수 있다.