테크레시피

AI 검색엔진 조사 결과…60% 이상에서 뉴스 기사 인용 오류

최근 AI를 이용한 검색 도구 인기가 급속히 높아지고 있으며 많은 사용자가 기존 검색 엔진 대신 인터넷을 크롤링해 최신 관련 정보를 제공하는 AI 검색 엔진을 사용하고 있다. 하지만 챗GPT 서치와 퍼플렉시티, 딥시크 서치 등 8개 AI 검색 엔진을 대상으로 한 조사 결과 많은 AI 검색 엔진이 잘못된 답변을 사용자에게 제공한다고 보고됐다.

기존 검색 엔진은 보통 사용자를 뉴스 사이트나 기타 질 높은 콘텐츠로 안내하는 중개자 역할을 한다. 반면 AI 검색 엔진은 인터넷에 존재하는 정보를 바탕으로 해당 정보를 AI가 자동으로 분석·요약해 사용자에게 제공한다. 따라서 AI 검색 엔진이 어떻게 뉴스 콘텐츠에 접근하고 표시·인용하는지 평가하는 게 시급한 과제다.

디지털 저널리즘 연구를 수행하는 토우디지털저널리즘센터(Tow Center for Digital Journalism)는 실시간 검색 기능을 갖춘 챗GPT 서치, 퍼플렉시티, 퍼플렉시티 프로, 딥시크 서치, 코파일럿, 그록2, 그록3, 제미나이로 테스트를 실시했다. 뉴스 콘텐츠를 정확하게 가져와 인용하는 능력과 그렇지 못할 경우의 행동을 평가했다.

센터 측은 실험으로 각 뉴스 사이트에서 10개 기사를 무작위로 선택하고 해당 기사 일부를 발췌해 각 챗봇에 쿼리로 제공했다. 그 후 제공한 쿼리가 해당 기사 제목이나 배포 뉴스 사이트, 공개일, URL을 특정하도록 요청했다.

이어서 각 챗봇 답변을 기사 제목이 맞는가, 배포 뉴스 사이트는 맞는가, URL은 제대로 가져왔는가 3가지 속성으로 나눠 수동으로 평가했다. 평가 결과는 모든 속성이 맞는 완전히 맞음(Completely Correct), 일부 속성은 맞지만 정보가 부족한 맞지만 불완전(Correct but Incomplete), 일부 속성은 맞았으나 다른 속성은 틀린 부분적으로 틀림(Partially Incorrect), 3가지 속성이 모두 틀리거나 누락된 전혀 맞지 않음(Completely Incorrect), 정보가 제공되지 않은 정보 없음(No Answer Provided), robots.txt에 의해 챗봇 크롤링이 차단된 크롤러 차단(Crawler Blocked) 6가지로 나뉘었다.

실험 결과 전체적으로 AI 검색 엔진 대부분은 올바른 기사를 가져오지 못했고 쿼리 60% 이상에 대해 잘못된 답변을 제공했다는 사실이 밝혀졌다. 또 플랫폼에 따라 부정확성 수준이 달랐는데 퍼플렉시티 오류율은 37%였던 반면 그록3 오류율은 94%에 달했다.

센터 측은 테스트한 도구 대부분은 ~일지도 모른다 같은 수식적 문구를 거의 사용하지 않고 부정확한 답을 자신 있게 제시했다며 챗GPT는 200개 기사 중 134개 답변에서 오류가 발생했지만 ~일지도 모른다는 등 신뢰성 부족에 관한 문구를 포함한 답변은 겨우 15개뿐이었다고 지적했다.

또 퍼플렉시티 프로나 그록3 등 이용에 과금이 필요한 모델이 오류율이 더 높았다고 한다. 센터 측은 이런 결과는 신뢰성과 정확성에 대한 잠재적으로 위험한 착각을 사용자에게 줄 수 있다고 말했다.

또 챗GPT 서치와 퍼플렉시티, 퍼플렉시티 프로는 자사가 사용하는 크롤러를 공개하고 있으며 퍼블리셔에게 크롤러에 의한 접근 허가를 맡기고 있다. 하지만 이런 AI 검색 엔진은 접근해서는 안 되는 콘텐츠를 가진 퍼블리셔에 관한 쿼리에 제대로 답하는 경우가 있었다. 그 중에서도 퍼플렉시티에서는 퍼플렉시티 크롤러를 허용하지 않았을 내셔널지오그래픽이 유료 기사로 설정한 10개 콘텐츠에서 발췌한 쿼리에 대해 정확히 식별·응답했다고 보고됐다. 퍼플렉시티를 둘러싸고는 2024년 6월에도 크롤러가 robot.txt 지시를 무시하고 웹사이트에 접근하고 있다는 점이 지적됐다.

또 이런 AI 검색 엔진은 잘못된 소스를 인용하기 쉽다고 보고됐다. 그 중에서도 딥시크 서치에서는 200개 답변 중 115번이나 출처를 잘못 표시했다. 센터 측은 챗봇이 기사를 제대로 식별하는 것처럼 보여도 원본 소스에 적절히 링크하지 않는 경우가 많았다고 말했다.

토우디지털저널리즘센터는 또 제미나이와 그록3 답변 절반 이상이 조작된 URL이나 손상된 URL을 제시했다고도 보고했다. 또 오픈AI와 퍼플렉시티는 타임과의 파트너십 계약을 체결했음에도 불구하고 어느 AI 검색 엔진도 타임 콘텐츠를 100% 정확하게 식별하지 못했다.

오픈AI 측 관계자는 이번 조사 결과에 대해 자사는 요약이나 인용, 명확한 링크, 귀속 표시를 통해 매주 4억 명에 달하는 챗GPT 사용자가 질 높은 콘텐츠를 찾는 걸 지원하고 있으며 퍼블리셔와 크리에이터 지원도 하고 있다면서 앞으로도 파트너와 협력해 인용 정확성을 향상시키고 검색 결과 확충을 계속할 예정이라고 말했다. 또 마이크로소프트는 자사는 robot.txt 기준을 준수하고, 페이지상 콘텐츠를 생성 AI 모델로 사용하는 걸 원치 않는 웹사이트가 제시하는 지시를 앞으로도 존중할 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독