
여러 미국인 작가가 2023년 오픈AI와 메타를 저작권 위반으로 제소한 재판에서 메타는 AI 트레이닝 목적으로 해적판 서적 데이터세트를 토렌트로 다운로드한 사실을 인정했다. 하지만 메타는 다운로드 후 해당 파일을 공유한 증거는 없다고 재판에서 주장하고 있다.
2023년 코미디언이자 작가인 사라 실버맨을 포함한 작가 3명은 챗GPT와 Llama가 불법으로 인터넷상에 유통되고 있는 작품을 데이터세트로 트레이닝했다고 주장하며 오픈AI와 메타를 제소했다.
이 재판에서 메타가 해적판 전자책 라이브러리인 Z-라이브러리(Z-Library)와 안나아카이브(Anna’s Archive) 등에 저장된 82TB 데이터를 사용해 트레이닝을 진행했다는 증거가 제시됐다.
이 트레이닝용 데이터세트는 메타 사내에서 비트토렌트(BitTorrent)를 사용해 다운로드된 것으로 보이며 원고는 비트토렌트를 사용한 다운로드 행위 자체가 캘리포니아주 컴퓨터 데이터 액세스 사기 방지법(CDAFA)에 위반되는 행위라고 주장했다.
반면 메타는 비트토렌트 자체는 큰 파일을 다운로드하기 위해 널리 사용되는 프로토콜이며 불법 기술이 아니라고 반박했다. 이번 비트토렌트 사용을 통한 데이터 다운로드는 단순히 비트토렌트를 통해 공개되어 있는 유명한 온라인 리포지토리 데이터에 접근하기 위한 행동이었다고 밝히며 다운로드하는 행위 자체는 불법이 아니라고 설명했다. 또 메타는 어디까지나 데이터 다운로드는 했지만 다운로드한 데이터를 공유하는 시딩에 관해서는 증거가 없으며 이를 부정한다는 입장을 보이고 있다.
보도에선 메타가 해적판(pirate)이라는 단어 사용을 의도적으로 피하고 있으며 대신 공개된 데이터세트, 누구나 읽을 수 있는 출판된 서적 텍스트, 원고가 운영·소유하지 않는 공개된 웹사이트 등 표현을 사용해 자사 행위를 합법적인 범위 내의 것으로 재정의하려 한다고 지적했다.
하지만 메타 프로젝트 관리 책임자인 마이클 클라크는 회사가 시딩되는 수를 가능한 한 최소화하도록 설정을 변경했다고 인정했다. 이는 시딩을 완전히 방지한 게 아니라 일정량은 시딩을 했을 가능성이 있으며 원고 측은 비트토렌트를 사용한 시점에서 메타는 해적판 데이터를 전 세계 사용자가 이용할 수 있게 했다고 주장했다.
또 메타 내부 메시지에서는 회사가 페이스북 서버를 사용하지 않고 데이터세트를 다운로드한 사실이 드러났으며 이는 추적 위험을 피하기 위한 의도적인 시도였다고 원고 측은 주장하고 있다.
최종적으로 원고 측은 메타가 비트토렌트를 사용해 해적판 데이터베이스에서 작품을 획득한 것으로 라이선스 수입을 잃었을 뿐 아니라 메타가 AI 훈련을 위해 데이터를 획득하는 과정에서 전 세계 인터넷 사용자가 작품 해적판 데이터를 다운로드할 수 있게 한 것으로 추가 수입도 잃었다고 주장하고 있다. 관련 내용은 이곳에서 확인할 수 있다.