테크레시피

구글 도서에 AI 저품질 도서 다수 수록되어 있다?

구글 도서 검색 서비스인 구글 도서(Google Books)는 키워드를 입력하면 해당 키워드와 일치하거나 관련된 도서를 검색 결과로 보여준다. 이런 구글 도서에 AI가 생성한 저품질 도서가 인덱싱되어 있다는 지적이 있다.

보도에 따르면 구글 도서에 “As of my last knowledge update”라는 키워드를 입력해 검색하면 이 문구가 포함된 도서 수십 권이 표시된다. 검색 결과에 나타난 일부 도서는 챗GPT, 기계 학습, AI 및 관련 주제에 대해 인간이 저술한 도서다. 하지만 검색 결과 처음 몇 페이지에 표시된 대부분 도서는 AI가 생성한 문장으로 구성된 도서라는 것.

실제로 구글 도서에 해당 검색어를 입력하면 도서 2만 3,800건이 표시된다. 이 도서에는 “As of my last knowledge update”라는 문구가 빈번하게 등장한다. 2024년 3월 출판된 한 도서(Maximize Your Twitter Presence: 101 Strategies for Marketing Success)에는 여러 페이지에 걸쳐 엑스에서 인증 마크를 얻는 방법이 기술되어 있지만 2022년 일론 머스크의 트위터 인수 이후 인증 마크를 얻는 건 비교적 쉬워졌다. 이 도서에는 2021년 9월 최종 업데이트 시점 트위터는 인증 기준과 프로세스를 평가, 업데이트 중이었기 때문에 절차와 요구 사항이 이후 바뀌었을 수 있다는 설명이 있어 2021년 9월 시점 정보를 기반으로 작성됐다는 걸 보여준다.

한 전문가는 구글이 구글 도서에 어떤 도서를 추가하고 있는지 모르리라 없을 것이라며 구글은 출판된 모든 도서를 인덱싱하는 것 같으며 구글에 AI가 생성한 도서에 대한 라벨링을 요청하고 싶다고 밝혔다. 또 DAIR(Distributed AI Research Institute) 연구 책임자는 AI가 생성한 콘텐츠가 구글 도서에 포함되어 구글이 해당 콘텐츠를 이용해 새로운 AI 모델 학습을 하는 구조라고 지적했다. 그는 구글이 품질 필터를 갖고 있다고 하겠지만 세부 사항은 공개되지 않을 것이라고 밝혔다.

한편 구글은 AI가 생성한 도서를 구글 도서에서 제외하는 정책을 마련할 것인지에 대해 밝히지 않고 있다. 구글 도서 담당자는 사용자가 구글 도서 코퍼스에서 유용하고 관련성 높은 도서를 찾을 수 있도록 시스템과 정책 개선에 계속 힘쓰고 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독