테크레시피

챗GPT 학습에 해적판 책을…작가가 고소

챗GPT는 대량 문장 데이터를 학습하고 있는 것으로 인간처럼 자연스러운 대화를 할 수 있고 논문이나 이야기 요약을 출력하는 등 다방면에 걸쳐 고급 문장을 생성할 수 있다. 하지만 다른 한편으론 학습 데이터세트 내용과 출처는 불투명해지고 있기 때문에 무수한 저작권과 프라이버시를 침해하고 있다며 집단 소송이 일어나는 등 저작권 문제도 나오고 있다. 더구나 소설가 2명이 챗GPT는 저작권으로 보호된 작품을 해적판에서 입수해 학습에 사용하고 있다며 챗GPT를 개발한 오픈AI에 소송을 걸었다.

지난 6월 28일 미국 캘리포니아에 본사를 둔 클락슨법률사무소는 오픈AI에 대해 오픈AI가 사용자에게 동의를 요청하거나 경고하지 않고 인터넷에 있는 엄청난 텍스트를 사용한다. 챗GPT 학습을 한 건 연방과 주 개인 정보 보호법을 위반한다고 주장하는 소장을 제출했다. 소장은 안전 조치를 취할 때가지 챗GPT 제공을 일시 중단해야 하며 동의 없이 개인 정보를 스크래핑한 것에 대한 손해 배상을 지불하라는 것이다.

또 이미지 생성 AI인 스테이블 디퓨전과 미드저니도 저작권으로 보호된 수십억 개 이미지로 학습되어 아티스트 보상이나 동의 없이 이미지가 다운로드되어 사용되고 있다며 집단 소송이 나오고 있다.

6월 28일에는 오픈AI가 챗GPT 모델 학습에 해적판 책을 사용했다는 소송장이 제출됐다. 소송에 참여한 건 SF나 공포물 등을 다루는 소설가 2인(Paul Tremblay, Mona Awad)으로 자신의 작품이 저작권으로 보호되고 있음에도 불구하고 챗GPT 학습에 허가없이 사용됐다고 주장했다. 소장에는 챗GPT에 프롬프트를 입력하면 저작권으로 보호된 작품이라도 작품 개요와 요약을 생성할 수 있다며 작품에 대해 학습을 받은 경우에만 가능하다고 표시했다.

소장에서 특징적인 점으로는 오픈AI가 학습용으로 해적판 사이트를 사용했다고 주장하고 있다. 세계 최대급 해적판 전자서적 사이트인 Z-라이브러리(Z-Library)는 운영자가 체포되어 미국 사법부에 의해 형사소추되어 있음에도 불구하고 사이트는 부활해 사용자를 늘리고 있기 때문에 Z-라이브러리 해적판 서적을 스크래핑에 의해 챗GPT 학습 데이터로 취득했을 가능성이 지적되고 있다.

또 다른 큰 문제로는 오픈AI는 챗GPT를 학습하는 데이터세트를 밝히지 않았다는 점을 언급하고 있다. 챗GPT와 관련한 오래된 논문에선 2개 데이터베이스(Books1, Books2)가 참조되고 있으며 Books1에선 6만 3,000 타이틀, Books2에선 29만 4,000 타이틀 책이나 논문, 웹페이지 등이 포함되어 있다. 이렇게 많은 책을 수록한 정규 데이터베이스는 존재하지 않기 때문에 오픈AI가 해적판 리소스를 사용한 게 틀림없다는 주장이다. 결론적으로 소장에선 오픈AI가 저작권 침해를 했다며 작품마다 15만 달러 법적 손해 배상을 요구하고 있다.

미국 의회는 2023년 5월 열린 저작권과 AI에 관한 하원 공청회에서 제너레이티브 AI에 관한 저작권 문제에 과반응하지 않을 것이라는 자세를 보여준다. 하지만 이번 소송은 제너레이티브 AI 사용자나 다양한 이미지, 문서 권리자에 의해 주목받고 있으며 소송 결과로 오픈AI가 학습 데이터 일부를 공개할 필요가 발생할 가능성이나 해적판을 학습에 사용하는 게 저작권 침해에 해당하는지 판단이 명확해질 가능성이 기대되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독