테크레시피

퍼플렉시티 CEO “크롤러 차단 무시 아니라…”

얼마 전 생성형 AI를 활용한 검색엔진 퍼플렉시티(Perplexity)가 검색엔진과 AI 훈련 등의 봇(크롤러)을 제어할 수 있는 텍스트 파일 robots.txt 지시를 무시하고 관리자가 퍼플렉시티 크롤링을 금지한 웹사이트에도 접근하고 있다는 지적이 제기됐다. 이에 대해 퍼플렉시티 아라빈드 스리니바스야(Aravind Srinivas) CEO는 robots.txt 지시를 무시하는 게 아니라며 자사 크롤러 뿐 아니라 제3자 크롤러에도 의존하고 있다고 해명했다.

기본적으로 구글이나 빙 같은 검색엔진과 생성형 AI는 크롤러라고 불리는 프로그램을 사용해 인터넷상 방대한 정보를 수집하고 검색 결과나 AI 훈련에 활용하고 있다. 한편 웹사이트 측에서 크롤러 접근을 제어하기 위해 사용되는 게 robots.txt라는 텍스트 파일로 관리자는 robots.txt에 특정 요소를 포함시켜 크롤러를 차단할 수 있는 구조로 되어 있다.

하지만 지금까지의 조사에서 퍼플렉시티가 robots.txt로 금지되어 있어야 할 블로그 게시물에서 정보를 추출해 다양한 세부 정보를 포함한 요약을 생성했다는 지적이 제기됐다. 또 퍼플렉시티 크롤러가 헤드리스 브라우저를 사용해 robots.txt를 무시하고 콘텐츠 스크래핑을 실행하고 있다는 사실도 밝혀졌다.

이런 퍼플렉시티 측 행동에 대해 사용자는 퍼플렉시티 같은 생성형 AI 검색엔진 크롤링은 웹사이트에 직접 접속하는 사용자를 감소시켜 다양한 단점을 초래한다는 등 의견을 제시했다.

한편 퍼플렉시티 스리니바스야 CEO는 robots.txt 같은 프로토콜을 무시하는 게 아니지만 자사 크롤러 뿐 아니라 제3자 크롤러에도 의존하고 있다고 보고했다. 그에 따르면 비밀 유지 계약을 이유로 구체적인 제공업체명은 밝힐 수 없지만 웹 크롤링 및 인덱싱 서비스를 제공하는 제3자 제공업체가 소유한 크롤러를 사용하고 있다고 한다.

AI 기업과 짝을 이뤄 라이선스 계약을 맺는 스타트업 톨비트(TollBit)는 50개 이상 웹사이트가 robots.txt 프로토콜을 무시하고 사이트에서 콘텐츠를 가져오는 걸 선택하고 있다고 지적했다. 이 회사는 구체적인 기업명을 밝히지 않았지만 조사에 따르면 챗GPT 개발사인 오픈AI와 클로드를 개발한 앤트로픽(Anthropic)도 robots.txt 프로토콜을 무시하고 있는 것으로 밝혀졌다.

한편 앤트로픽은 자사 크롤러는 robots.txt 업계 표준 지시를 존중하며 사용자로부터의 크롤링하지 말라는 신호를 존중한다며 크롤러를 차단하는 방법을 설명하고 있다.

스리니바스야 CEO는 톨비트와 같은 기업이 소유한 크롤러도 사용하고 있다고 인정하면서 robots.txt 같은 크롤러를 제어하는 프로토콜은 법적으로 정해진 게 아니며 웹사이트를 운영하는 퍼블리셔와 기술 기업은 새로운 관계를 구축해야 한다고 주장했다.

그는 또 즉시 제3자 크롤러에 연락해 robots.txt로 보호되는 콘텐츠 크롤링을 중단하도록 전달할 수 없었냐는 지적에 대해 복잡한 문제라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독