테크레시피

오픈AI, 100만 시간 이상 유튜브 영상 학습에…

보도에 따르면 오픈AI가 AI 모델 학습을 위해 100만 시간 이상 유튜브 동영상을 다운로드해 사용했다는 사실이 드러났다. 한편 구글은 오픈AI 측 행위를 인지하고 있었지만 자체적으로도 유튜브 동영상을 AI 모델 학습에 활용하고 있었기 때문에 조치를 취하지 않았다고 한다.

오픈AI는 2021년 시점 온라인상 신뢰할 수 있는 영문 텍스트를 모두 소진했고 차기 AI 개발을 위해 새로운 텍스트가 필요했다고 한다. 이에 따라 오픈AI는 고정밀 자막 생성 기술인 위스퍼(Whisper)를 개발했고 이를 이용해 유튜브 동영상 자막을 생성해 AI 학습용 데이터를 확보했다. 오픈AI 내부에서도 이에 대한 논란이 있었지만 그렉 브록만 CEO가 개인적으로 데이터 수집에 협력했고 그 결과 GPT-4가 탄생했다고 한다.

보고서에 따르면 구글도 유튜브 동영상을 AI 모델 학습에 활용했던 것으로 밝혀졌다. 구글은 2023년 7월 개인정보 정책을 바꿔 구글 문서, 스프레드시트 같은 콘텐츠도 AI 학습에 활용할 수 있도록 했다.

연구자는 2026년까지 AI 학습에 사용할 데이터가 고갈될 것이라고 지적했지만 실제로는 이미 무리한 상황에 놓여 있는 것으로 보인다. 오픈AI와 구글 관계자는 자사 행위에 대해 설명했지만 유튜브 CEO는 유튜브 데이터를 AI 학습에 사용하는 게 규정 위반이라고 명확히 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독