메타 출신 연구자가 설립한 기업에 의한 생성형 AI 활용을 지원하기 위한 업계 첫 대규모언어모델 자동 평가 플랫폼인 파트로누스AI(Patronus AI)가 주요 LLM이 저작권으로 보호된 콘텐츠 생성 빈도를 조사했다. 이 테스트는 오픈AI가 개발한 GPT-4가 경쟁 LLM에 비해 압도적으로 저작권으로 보호된 콘텐츠를 출력하는 것으로 나타났다.
파트로누스AI는 LLM이 저작권 침해 콘텐츠를 얼마나 다루고 있는지 알아볼 수 있는 새로운 도구인 카피라이트캐처(CopyrightCatcher)를 발표했다. 이에 따라 파트로누스AI는 카피라이트캐처를 이용해 오픈AI GPT-4, 앤트로픽 클로드2, 메타 LLaMA2, 미스트랄AI 믹스트랄 등 4개 LLM이 어느 정도 빈도로 출력이 저작권을 침해하고 있는지 조사했다.
파트로누스AI는 서적 정보를 정리한 웹사이트(Goodreads)에서 인기 높은 미국에서 저작권으로 보호되는 서적을 선택해 LLM 출력을 평가했다. 테스트에는 100가지 다른 프롬프트를 준비했다.
테스트 결과 저작권으로 보호된 콘텐츠를 가장 많이 출력한 건 오픈AI GPT-4다. GPT-4는 특정 책 본문을 완성하라는 요청을 받았으며 60% 확률로 출력에 성공했다. 책 첫 번째 절을 출력할 확률은 4회에 한 번씩 진행된다. 또 GPT-4가 저작권으로 보호된 콘텐츠를 출력할 확률은 44%였다.
이에 비해 앤트로픽 클로드2는 책 본문을 완성하도록 요구받으면 저작권으로 보호된 콘텐츠를 출력할 확률은 16%였다고 한다. 더구나 책 첫 부분을 출력하도록 요청하더라도 저작권으로 보호된 콘텐츠 출력 확률은 0%였다. 또 클로드2가 저작권으로 보호된 콘텐츠를 출력할 확률은 8%였다.
미스트랄은 책 첫 부분을 출력할 확률이 38%, 책 본문을 완성할 확률은 6%였다. 또 미스트랄이 저작권으로 보호된 콘텐츠를 출력할 확률은 22%였다. 한편 LLaMA2가 저작권 보호 콘텐츠를 출력할 확률은 10%였다.
파트로누스AI 측은 오픈소스 또는 폐쇄 소스에 관계없이 테스트한 모든 LLM에서 저작권으로 보호된 콘텐츠 출력을 확인할 수 있었다며 44%에서 저작권으로 보호된 콘텐츠를 생성했다고 밝혔다.
오픈AI는 출판사나 저자, 아티스트 등으로부터 저작권 침해로 소송을 당하고 있으며 그 중에서도 주목받고 있는 게 뉴욕타임즈에 의한 저작권 침해 소송이다. 이에 대해 오픈AI는 2024년 1월 영국 의회에 제출한 문서 중 오늘날 저작권은 블로그 게시물, 사진, 포럼 게시물, 소프트웨어 코드, 정부 문서 등 사실상 모든 종류 인간 표현을 대상으로 하기 때문에 저작권으로 보호된 소재를 사용하지 않고 주요 AI 모델을 학습시키는 건 불가능하다고 밝혔다. 또 LLM 출력이 어느 정도 저작권으로 보호된 콘텐츠인지 조사할 수 있는 카피라이트캐처 데모는 직접 체험해볼 수도 있다. 그 뿐 아니라 저작권 위반 평가 시스템 테스트 세트 역시 깃허브에 게시되어 있다. 관련 내용은 이곳에서 확인할 수 있다.