테크레시피

애플 “유튜브 자막, AI 학습에 사용 안했다” 반박

비영리 연구 단체가 만든 AI 학습용 데이터세트인 더파일(The Pile)에 유튜브 자막이 포함되어 있다는 사실이 알려지면서 이 데이터세트를 사용한 것으로 알려진 애플과 엔비디아가 비난을 받았다. 이에 대해 애플은 연구용 언어 모델에는 사용했지만 자사 AI 기능인 애플 인텔리전스(Apple Intelligence)에는 사용하지 않았다고 반박했다.

지난 7월 16일 보도에 따르면, 비영리 AI 연구 단체인 이루더AI(EleutherAI)가 만든 데이터세트인 더파일에 유럽 의회 자료, 영어판 위키피디아 문장, 17만 개가 넘는 유튜브 동영상 자막 등이 포함되어 있었다고 한다. 연구 논문과 공개 정보를 조사해 애플, 엔비디아, 블룸버그, AI 개발 기업인 앤트로픽 등이 더파일을 사용했다고 지적했다.

그 중에서도 애플은 애플 인텔리전스라는 AI 기능을 막 발표한 상태였기 때문에 부적절한 데이터를 사용한 게 아니냐는 의혹을 받았다. 하지만 이후 애플은 해당 데이터세트는 연구용 언어 모델에만 사용했으며 애플 인텔리전스를 포함한 어떤 AI에도 영향을 주지 않았다고 반박했다.

애플은 연구용 대규모 언어 모델인 오픈ELM(OpenELM)을 구축했으며 해당 연구 논문 중 더파일을 사용했다고 명시하고 있다. 이에 대해 애플은 연구 커뮤니티에 기여하고 오픈소스 대규모 언어 모델 개발을 촉진하기 위해 오픈ELM 모델을 만들었으며 애플 인텔리전스를 위한 게 아니라고 설명했다. 해당 데이터세트는 어디까지나 연구 목적으로 사용했을 뿐 애플 인텔리전스에는 사용하지 않았다고 강조한 것. 또 애플은 오픈ELM 모델 새 버전을 만들 계획이 없다고도 전했다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사