테크레시피

메타 LLM에도 쓰인 AI 학습용 데이터세트 삭제됐다

덴마크 저작권 침해 대책 그룹인 라이츠얼라이언스(Rights Alliance)가 20만 권에 달하는 책 데이터세트인 북스3(Books3)을 삭제하라고 호스팅하는 곳(The Eye)에 요구, 데이터세트를 삭제했다. 북스3은 메타가 개발하는 대규모 언어 모델인 LLaMA 학습에도 사용된 데이터세트다.

비영리 AI 연구 그룹인 일루더AI(EleutherAI)가 제공하는 오픈소스 AI 학습용 데이터세트인 더파일(The Pile) 일부로 출시된 북스3에는 AI 모델 학습용으로 19만 6,640권, 37GB 책 데이터가 포함됐다. 북스3은 AI 개발자가 2020년 올린 뒤 대규모 저장소인 디아이(The Eye)가 호스팅했다. 누구나 챗GPT에 필적하는 AI 모델을 만들 수 있게 되는 게 북스3의 개발 목표였기 때문. 또 챗GPT가 어떤 이유로 오프라인이 됐거나 소송에 직면할 경우를 대비해 독자적인 챗GPT 스타일 AI 모델을 만들 수 있는 게 중요하다는 설명이다.

북스3은 메타 대규모 언어 모델인 LLaMA, 불룸버그GPT 학습에도 사용되고 있으며 메타 측은 북스3에 대해 대규모 언어 모델을 학습하기 위한 공개 데이터세트라고 설명하기도 했다. 디아이는 모든 데이터세트는 디지털 밀레니엄 저작권법을 준수한다고 주장하지만 지적재산권과 저작권에 대한 침해 혐의가 지적됐다.

AI에 대한 저작권 침해 우려가 커지는 가운데 라이츠얼라이언스는 디아이 측에 디지털 밀레니엄 저작권법 침해에 근거한 북스3 삭제 요청을 했다. 라이츠얼라이언스 측 관계자는 AI가 저작권 침해된 불법 콘텐츠를 사용해 학습되는 걸 막는 게 중요하다고 말한다. 북스3처럼 불법 AI 학습용 데이터세트를 탐지하고 삭제할 뿐 아니라 불법 콘텐츠를 이용해 학습받고 널리 인터넷에 퍼진 AI를 다루는 게 중요한 과제라고 덧붙였다.

라이츠얼라이언스 삭제 요청에 따라 디아이는 북스3 데이터세트를 삭제했다. 한편 디아이가 공개하던 북스3 다운로드 링크는 오프라인이 됐지만 데이터세트가 인터넷상에서 완전히 삭제된 건 아니라는 지적이 나온다. 보도에선 파일은 여전히 인터넷 아카이브 웨이백 머신에서 백업되고 대체 다운로드 링크도 공유된다고 보고하고 있다. 또 기존 해적판 책이나 영화처럼 한번 나돈 걸 삭제하는 건 어려운 일이라고 지적하고 있다.

라이츠얼라이언스는 북스3 삭제 요청 외에도 메타에게 북스3에 대한 응답을 요구하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독