테크레시피

메타 AI 훈련에 서적 사용한 소송 기각

페이스북과 인스타그램 개발사이자 독자 AI인 메타 AI 등을 전개하는 메타가 AI 훈련을 위해 저작권으로 보호된 서적을 이용했다며 복수 작가로부터 소송을 당했는데 재판을 담당하는 판사가 소를 기각했다.

코미디언 사라 실버맨과 하나하나의 친절 저자인 재클린 우드슨을 포함한 13명 작가 그룹이 메타가 AI 훈련을 위해 저작물을 훔치고 있다며 저작권 침해 소송을 제기했다.

이 재판에서는 메타 저커버그 CEO가 Llama 개발팀에 저작권으로 보호된 서적과 문서를 포함한 데이터셋을 Llama 학습에 사용하는 걸 승인했다는 게 추궁 당했지만 메타는 저작권 보호된 데이터를 다운로드하는 것 자체는 저작권 위반이 아니라고 주장했다.

이 재판 담당 판사는 6월 25일 원고 측 소를 기각했다. 판사는 원고 측이 잘못된 주장을 했다고 판단하고 있지만 이번 판결은 원고에 한정된 것이며 이 소송에서 원고 측은 메타 AI(Llama)가 원고 서적 일부를 재현할 수 있다는 점과 메타가 허가 없이 작품을 훈련에 이용해 저자가 대규모 언어 모델용 훈련 데이터로 작품을 라이선스할 능력이 저하됐다는 점을 주장하고 있다.

원고 측은 메타가 해적판 온라인 리포지터리에서 저자 책을 다운로드하고 메타 생성 AI인 Llama 훈련에 이용해 대규모 저작권 침해를 일으켰다고 주장했다. 원고 측 변호사는 메타는 이런 문학 작품을 구입하고 라이선스를 취득하기 위해 대금을 지불할 수 있었고 지불했어야 했다고 지적했다.

이에 대해 메타는 미국 저작권법은 저작물을 무허가로 복사해서 새로운 것으로 바꾸는 걸 허용하고 있다며 메타 데이터 이용법은 공정 이용에 해당한다고 주장했다. Llama가 생성하는 문장은 훈련에 사용된 서적 표현과는 근본적으로 다른 것이라고 반박했다. 또 사용자가 요구해도 Llama가 훈련에 사용된 서적 내용을 통째로 복사한 듯한 문장을 출력하는 일은 없다고 주장하고 있다.

이 건에 대해 판사는 Llama는 원고 측 서적 텍스트를 충분히 생성할 능력이 없으며 원고가 AI 훈련 데이터로서의 작품 라이선스 시장을 주장할 권리는 애초에 없다며 원고 측 두 주장이 모두 통용되지 않는다고 결론지었다. 판사는 법원은 일반적인 이해에 기초해 판결을 내릴 수 없으며 당사자가 제출한 증거에 기초해 판결을 내려야 한다며 본건을 기각했다.

판사는 이 판결은 메타가 저작권으로 보호된 소재를 사용해 언어 모델 훈련을 하는 게 합법이라는 주장을 지지하는 건 아니며 이 판결은 원고가 잘못된 주장을 전개하고 올바른 주장을 뒷받침하는 기록을 작성하지 못했다는 메타 측 주장을 지지할 뿐이라고 언급했다. 실제로 판사는 메타가 원고 측 작품을 복사해서 시장에 유사한 작품을 대량으로 유통시켜 시장 희석화를 일으키는 제품을 만들었다는 점에 대해서는 원고가 거의 언급하지 않았고 증거도 제시하지 않았지만 이는 잠재적으로 승소 가능하다고 전했다.

또 메타 측이 밝힌 AI 기업에 수십 년 전 저작권법 준수를 의무화하는 건 극히 중요한 시기에 중요한 기술 진보를 늦추게 된다는 주장도 일축하며 AI가 개발 기업에 수십억 달러 혹은 수조 달러 수익을 가져다줄 것으로 예상되므로 만일 기업이 말하는 것처럼 저작물을 사용해 AI를 훈련시킬 필요가 있다면 저작권자에게 보상하기 위한 방법을 찾아야 한다고 말했다.

원고측 변호사는 법원은 저작권자 허가를 받거나 비용을 지불하지 않고 저작권으로 보호된 작품을 자사 모델에 취입하는 AI 기업은 일반적으로 법률 위반에 해당한다고 판단했다며 하지만 메타가 저작권으로 보호된 작품을 저작권 침해하면서 이용한다는 역사상 전례 없는 기록이 있음에도 법원은 메타에 유리한 판결을 내렸다면서 이 결론에 경의를 표하면서도 이의를 제기한다는 성명을 발표했다.

한편 메타는 오픈 소스 AI 모델은 개인과 기업의 혁신, 생산성, 창조성을 변혁적으로 높이고 있으며 저작권 소재에 대한 공정 이용은 이 변혁적 기술을 구축하기 위한 중요한 법적 틀이라고 말했다.

이 소송에서 원고 측은 메타가 해적판 온라인 리포지터리에서 저자 책을 다운로드하고 메타 생성 AI인 Llama 훈련에 이용해 대규모 저작권 침해를 일으켰다고 주장했다. 원고 측 변호사는 메타는 이런 문학 작품을 구입하고 라이선스를 취득하기 위해 대금을 지불할 수 있었고, 지불했어야 했다고 주장했다.

이에 대해 메타는 미국 저작권법은 저작물을 무허가로 복사해서 새로운 것으로 바꾸는 걸 허용하고 있다며 메타 데이터 이용법은 공정 이용에 해당한다고 주장했다. Llama가 생성하는 문장은 훈련에 사용된 서적 표현과는 근본적으로 다른 것이라고 반박했다. 또 사용자가 요구해도 Llama가 훈련에 사용된 서적 내용을 통째로 복사한 듯한 문장을 출력하는 일은 없다고 주장하고 있다.

한편 메타와 마찬가지로 AI 챗봇 클로드를 개발하는 앤트로픽이 미국인 작가 3명에게 저작권 침해로 소송 당했는데 앤트로픽 역시 저자 허가가 없어도 합법적으로 구입한 서적으로 AI를 훈련시키는 건 공정 이용에 해당하며 저작권 침해가 아니라는 판결을 얻어냈다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독