보도에 따르면 메타 임원과 변호사가 소송 위험을 감수하더라도 저작권이 보호된 콘텐츠를 AI 학습에 사용하는 걸 검토했다는 내용이 비밀 회의록에 기록되어 있다고 한다.
AI 모델 학습에는 대량 데이터가 필요하다. 예를 들어 오픈AI GPT-3 모델 학습에는 2007년 이후 수집된 웹페이지 문서 4,100억 개와 도서 스캔, 소셜미디어 게시물 등 모두 3조 개가 넘는 토큰이 사용됐다.
인터넷에선 엄청난 데이터가 끊임없이 생산되고 있으며 전 세계적으로 수집‧소비되는 데이터 총량은 2025년까지 연간 180제타바이트를 넘어설 것으로 추정된다. 하지만 AI가 필요로 하는 데이터량이 이를 훨씬 초과하기 때문에 2026년까지 AI 학습에 쓰일 수 있는 고품질 데이터가 고갈될 것이라는 연구 결과가 발표됐다.
이런 치열한 AI 군비 경쟁을 주도하기 위해 기업마다 규정을 무시하고 데이터 수집에 열을 올리고 있다. 보도에선 오픈AI가 유튜브 이용 약관을 위반하는 방식으로 동영상을 AI 학습에 사용했고 유튜브 모기업인 구글도 이를 묵인했다고 한다.
더구나 이번에는 메타 임원이 AI 개발에 필요한 대량 데이터를 확보하는 방법에 대해 변호사와 논의한 녹음 자료를 입수했다는 보도도 나온 것. 아흐마드 알달 메타 AI 담당 부사장은 챗GPT에 뒤쳐질 걸 우려하며 매일 같이 AI 개발팀 리더, 변호사와 회의를 열어 더 많은 데이터가 필요하다고 강조했다고 한다.
이 회의에선 신간 1권당 10달러 라이선스 비용을 지불하거나 인기 작가 작품을 다루는 출판사를 인수하는 등 방안이 논의됐다. 또 아프리카 업체를 고용해 저작권 보호 작품을 무단 요약한 사례도 언급됐으며 설사 소송 위험이 있더라도 더 많은 작품을 확보해야 한다는 의견도 있었다.
이에 대해 한 변호사는 예술가의 지적 재산권을 빼앗는 건 문제가 있다며 윤리적 우려를 제기했지만 침묵만이 흘러갔다고 녹음 기록에 나타났다. 닉 그루딘 메타 글로벌 파트너십‧콘텐츠 담당 부사장은 한 회의에서 챗GPT 같은 뛰어난 걸 만드는 데 있어 장애물은 문자 그대로 데이터량뿐이라고 말하기도 했다. 관련 내용은 이곳에서 확인할 수 있다.