퍼플렉시티, 크롤러 막는 규칙 무시하고 정보 추출?

퍼플렉시티(Perplexity)는 생성형 AI를 활용한 검색 엔진으로 사용자 질문에 대해 AI가 직접 답변을 생성할 수 있을 뿐 아니라 사용자 프롬프트를 바탕으로 한 웹페이지를 생성하는 페이지(Pages)라는 기능을 제공한다. 이런 퍼플렉시티가 검색엔진이나 AI 학습 등 봇 그러니까 크롤러를 제어하는 텍스트 파일 robots.txt 지시를 무시하고 관리자가 퍼플렉시티 방문을 금지한 웹사이트에도 접근하고 있다는 사실이 드러났다.

구글이나 빙 같은 검색 엔진이나 챗GPT를 비롯한 생성형 AI는 크롤러라 불리는 프로그램을 사용해 인터넷에서 엄청난 정보량을 수집하고 이를 검색 결과나 AI 트레이닝 등에 활용한다. 웹사이트 측에서 크롤러 방문을 제어하기 위해 사용하는 게 robots.txt라는 텍스트 파일. 관리자는 robots.txt에 특정 요소를 포함시켜 크롤러를 차단할 수 있는 구조다. 최근에는 생성형 AI 학습에 웹 데이터가 무단으로 사용되는 걸 문제 삼는 움직임이 있었고 2023년 8월에는 오픈AI가 사용하는 크롤러 GPTBot을 차단하는 방법이 공개됐으며 구글도 생성형 AI 학습에 웹사이트가 사용되지 않도록 하는 옵션을 발표했다.

기술 블로그를 운영하는 롭 나이트(Rob Knight)는 2024년 3월부터 자신의 블로그 robots.txt에서 퍼플렉시티 크롤러(PerplexityBot)를 차단하기 시작했다. 그는 차단이 제대로 이뤄지고 있는지 확인하기 위해 퍼플렉시티에 자신의 블로그 게시물 URL을 붙여 넣고 해당 게시물은 뭐냐고 물었다. 그러자 퍼플렉시티는 접근이 불가능해야 할 블로그 게시물에서 정보를 끌어와 다양한 세부 사항을 포함한 요약을 생성했다고 한다. 블로그 robots.txt가 제대로 작동하지 않을 가능성도 있었기에 그는 nginx를 사용해 테스트를 진행했지만 퍼플렉시티봇은 적절히 차단되고 있었다.

이후 추가 조사 결과 퍼플렉시티봇은 헤드리스 브라우저를 사용해 robots.txt를 무시하고 콘텐츠를 스크래핑하고 있었다. 전송된 사용자 에이전트 문자열에는 퍼플렉시티봇을 나타내는 부분이 포함되어 있지 않아 robots.txt에서 크롤러를 막을 수 없게 되어 있었다.

그가 퍼플렉시티에 robots.txt는 이 웹사이트 크롤링을 금지하고 있는데 왜 접근하냐고 물었더니 자신은 실제로 웹사이트를 크롤링하거나 robots.txt 파일에서 차단된 콘텐츠에 접근할 수 있는 능력이 없다며 웹사이트 컨텐츠가 robots.txt에 의해 제한되어 있다면 자신은 윤리적으로 해당 콘텐츠에 접근하거나 요약할 수 없다고 답변했다.

사용자는 AI 개발사 크롤러 차단을 강제하면 광고 차단기 등 유용한 소프트웨어에도 부정적 영향을 미칠 수 있다는 지적과 퍼플렉시티 같은 생성 AI 검색엔진 크롤링은 웹사이트에 직접 접속하는 사용자 수를 줄여 여러 가지 단점을 낳는다는 의견 등을 내놨다. 관련 내용은 이곳에서 확인할 수 있다.