테크레시피

주요 뉴스 사이트, 애플 인텔리전스 크롤러 차단중?

생성 AI를 트레이닝하는 데 사용되는 콘텐츠는 종종 봇을 사용해 웹에서 스크래핑하는데 이는 자주 문제가 되고 있다. 애플도 AI 트레이닝에 사용할 콘텐츠를 스크래핑하고 있지만 여러 뉴스 사이트가 이 크롤러를 차단하고 있는 실태가 드러났다.

생성 AI는 웹상 콘텐츠를 스크래핑해 트레이닝에 활용한다. 저작권으로 보호된 콘텐츠도 AI 트레이닝에 사용되고 있어 이 방식은 종종 문제가 되어 왔다.

애플 개인용 AI 애플 인텔리전스도 트레이닝을 위해 웹상 콘텐츠를 스크래핑하고 있지만 콘텐츠 퍼블리셔는 robots.txt 파일에 지시사항을 기재해 자신의 콘텐츠가 스크래핑되는 걸 명시적으로 옵트아웃 그러니까 차단할 수 있다. 애플은 이 옵트아웃 기능인 Applebot-Extended를 지난 5월 발표했으며 애플이 웹상 콘텐츠를 스크래핑하는 데 사용하는 크롤러인 Applebot에 관한 정보가 정리된 페이지에도 이 정보가 기재되어 있다. 참고로 Applebot은 원래 음성 비서인 시리(Siri)와 검색 기능인 스폿라이트(Spotlight)를 트레이닝하는 데 사용되던 크롤러로, 2015년 등장했다. 애플은 최근 애플 인텔리전스를 트레이닝하기 위해 Applebot을 재사용하고 있다.

이런 Applebot 옵트아웃 기능을 페이스북과 인스타그램 같은 메타가 운영하는 주요 SNS나 뉴욕타임스와 디애틀랜틱 같은 주요 뉴스 사이트가 이용하고 있는 것으로 밝혀졌다. Applebot을 옵트아웃했는지 여부는 공개된 robots.txt 파일을 통해 누구나 확인할 수 있다. 조사에 따르면 페이스북, 인스타그램, 크레이그리스트(Craigslist), 텀블러, 뉴욕타임스, 파이낸셜타임스, 디애틀랜틱, 복스미디어, USA투데이, 콘데나스트(Condé Nast) 등이 Applebot을 차단하고 있는 것으로 드러났다. 트래픽이 많은 웹사이트 6~7%가 Applebot을 차단하고 있다는 것.

또 데이터 저널리스트인 벤 웰시 독자 조사에 따르면 미국을 기반으로 하는 영어 매체 1167개 중 4분의 1인 294개가 Applebot을 차단하고 있는 것으로 밝혀졌다. 이에 비해 오픈AI 크롤러를 차단하는 기업은 53%, 구글 크롤러를 차단하는 기업은 43%라고 한다. 한편 애플은 AI를 트레이닝하기 위해 여러 매체와 계약을 맺고 있다고 보도되고 있어 Applebot을 차단하는 건 이 계약을 맺지 않은 기업 및 매체일 것으로 추정된다.

AI에 의한 표절 등을 체크하기 위한 도구를 개발하는 오리지널리티AI(Originality AI) 창업자인 존 길햄은 세계 최대 출판사 중 많은 곳이 명백히 전략적인 접근을 취하고 있다며 파트너십 계약이 체결될 때까지 데이터를 보류하는 등 비즈니스 전략이 관련된 경우도 있을 것 같다면서 기업 측이 애플로부터 금전을 받기 위해 Applebot을 거부하고 있을 가능성이 있다고 지적했다.

한편 애플이 유튜브 동영상 자막을 AI 트레이닝에 사용하고 있다는 지적이 있었지만 애플은 애플 인텔리전스를 포함한 제품 버전 AI의 트레이닝에는 사용하지 않고 있다고 반박했다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사