AI 개발 데이터 고갈 "1년 만에 고품질 25%…"

AI 개발 데이터 고갈 “1년 만에 고품질 25%…”

AI 개발에는 인터넷에서 수집한 텍스트, 이미지, 동영상 등 데이터가 대량으로 사용된다. 하지만 크롤링 금지와 서비스 이용약관 변경으로 AI 기업이 웹사이트에서 차단되면서 고성능 AI 훈련에 사용할 수 있는 데이터 총량이 1년 만에 5%, 고품질 데이터 25%가 사용할 수 없게 됐다는 게 밝혀졌다.

AI 모델 데이터세트 감사를 수행하고 있는 단체(Data Provenance Initiative)는 널리 사용되는 AI 학습용 데이터세트 3종(C4, RefinedWeb, Dolma)에 포함된 1만 4,000개 웹 도메인을 조사해 크롤링으로 얻을 수 있는 데이터와 사용에 관한 동의 상황의 변화를 조사했다.

그 결과 2023년부터 2024년까지 단 1년 만에 사이트별 데이터 제한이 급증하고 있다는 게 밝혀졌다. 조사 결과에 따르면 Robots.txt에 의한 제한은 오픈AI 크롤러인 GPTBot 도입을 기점으로 급증했다.

제한 증가로 인해 AI 훈련에 사용할 수 없는 데이터도 급증했다. 구체적으로는 코퍼스 전체에서의 토큰 제한이 2023년 중순 1%에서 2024년 4월에는 5~7%로, 가장 중요한 데이터인 HEAD 제한은 3% 미만에서 20~33%로 증가했으며 C4와 RefinedWeb에서의 코퍼스 전체의 상대적인 제한 증가량은 500%, HEAD에서는 1,000% 이상에 달했다고 한다. 그 중에서도 C4에서는 서비스 이용약관으로 인해 토큰 45%가 제한됐다.

연구팀은 인터넷 상에서의 데이터 사용에 대한 동의율이 급속히 감소하고 있으며 이는 AI 기업 뿐 아니라 연구자와 학자, 비영리 단체에도 영향을 미칠 것이라고 말했다.

생성형 AI는 데이터를 기본적인 구성 요소로 하고 있으며 오픈AI 챗GPT, 구글 제미나이, 앤트로픽 클로드 같은 AI는 모두 대량 데이터세트를 사용해 훈련된 것이다.

오랫동안 AI 개발자는 쉽게 데이터를 수집할 수 있었지만 생성형 AI가 유행하면서 AI 개발자와 데이터 소유자간 대립이 표면화되기 시작했다. 그 결과 데이터 소유자는 데이터를 훈련에 사용하는 걸 금지하거나 유료화해 데이터 사용에 대가를 요구하기 시작했다.

AI 업계와 관계자는 이런 변화에 경계심을 강화하고 있다. 또 일부에선 이미 많은 데이터를 소유하고 있는 대형 기술 기업과 후발 소규모 기업이나 연구자간 데이터 격차가 확대될 뿐이라고 지적하는 목소리도 있다.

AI 플랫폼을 제공하고 있는 허깅페이스 연구자는 데이터 생성자가 온라인에서 공유한 텍스트, 이미지, 동영상이 상업 시스템 개발에 사용되어 종종 그들의 생활을 직접 위협하는 상황이 되고 있어 데이터 생성자로부터 반발이 일어나는 건 당연하지만 AI 학습에 사용하는 데이터를 모두 라이선스 계약으로 입수해야 한다면 일반 연구자나 시민이 기술 거버넌스에서 배제될 수도 있다고 말했다.

또 비영리 AI 연구기관 일루더AI(EleutherAI) 관계자는 대형 기술 기업은 이미 대량 데이터를 보유하고 있으며 데이터 라이선스를 변경해도 소급해 허가를 취소할 수는 없다며 따라서 영향을 받는 건 주로 나중에 온 소규모 스타트업이나 연구자가 될 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.