테크레시피

애플‧엔비디아‧앤트로픽…유튜브 영상 자막 무단 사용?

애플, 앤트로픽, 엔비디아 등이 유튜브에 공개된 17만 개 이상 동영상 자막을 AI 학습에 무단으로 사용했다는 지적이 나왔다.

보도에 따르면 AI 훈련 데이터에 대한 상세한 조사를 실시했으며 그 중에서도 비영리 AI 연구 단체인 일루더AI(EleutherAI)가 만든 더파일(The Pile)이라는 데이터세트에 주목했다. 이 데이터세트에는 유럽 의회, 영어 위키피디아, 수사 일환으로 공개된 엔론 직원에 대한 대량 이메일, 그리고 유튜브 동영상 자막을 모은 유튜브 자막(YouTube Subtitles) 등 데이터가 포함되어 있다고 한다.

유튜브 자막은 4만 8,000개 이상 채널이 공개한 17만 3,536개 동영상 자막에서 4억 8,900만 단어를 모은 것으, 전체 크기가 5.7GB에 달한다고 한다. 대상 채널에는 미스터비스트(MrBeast)나 퓨디파이(PewDiePie) 같은 초대형 유튜버는 물론 지구 평면설 등 음모론을 주장하는 채널도 포함되어 있었다고 한다.

보도에선 각종 AI 기업 연구 논문과 공개 정보를 조사해 애플, 앤트로픽, 엔비디아, 세일즈포스, 블룸버그, 데이터브릭스 같은 기업이 자사 AI를 훈련시키기 위해 더파일을 사용했다고 지적하고 있다.

유튜브에는 방대한 동영상이 올라와 있어 AI 훈련에 사용되는 경우가 많다. 지난 4월에는 오픈AI가 100만 시간 이상 동영상을 유튜브에서 다운로드해 AI 훈련에 사용했다는 보도가 있었다. 하지만 유튜브 닐 모한 CEO는 만일 유튜브 동영상을 훈련에 사용했다면 규칙 위반에 해당한다는 견해를 밝혔다.

구글 측은 자사는 오랫동안 무단 스크래핑을 방지하기 위한 조치를 취해왔다고 말했지만 다른 회사가 유튜브 동영상 자막을 훈련 데이터로 사용하는 것에 대해서는 언급하지 않았다.

앤트로픽 관계자는 더파일에는 유튜브 자막 극히 일부가 포함되어 있다며 유튜브 자막 데이터를 훈련에 사용했음을 인정했다. 다만 유튜브 이용 약관은 해당 플랫폼 직접 사용을 대상으로 하며 더파일 사용은 대상에서 제외된다며 유튜브 이용 약관을 위반할 가능성이 있다는 지적이 있다면 이는 더파일 제작자에게 문의해야 한다고 말했다.

세일즈포스 측은 더파일을 학술 및 연구 목적으로 AI 모델 구축에 사용했다며 더파일은 공개된 데이터세트라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독