AI 학습 데이터 고갈 위기, 데이터셋 부족한 AI 기업은…

AI 모델 개발에는 학습 자료가 되는 데이터셋이 필수적이지만 이미 대규모 모델은 접근 가능한 데이터 거의 대부분을 소진했으며 2028년까지 데이터를 모두 사용해 버릴 가능성이 지적되고 있다.

지난 10년간 AI는 폭발적인 성장을 이뤘으며 그 중에서도 인간 문장을 분석해 그럴듯한 문장을 반환하는 능력은 놀랍다. 하지만 이런 능력은 모두 인터넷상에 존재하는 기존 텍스트 등 다양한 데이터를 학습한 토대 위에 구축됐다.

인터넷에 엄청난 양에 이르는 데이터가 존재하는 건 사실이지만 연구 기관 Epoch AI에 따르면 AI는 놀라운 속도로 인터넷상 데이터를 계속 학습하고 있으며 거의 대부분을 소진해 버릴 가능성이 있다고 한다.

Epoch AI는 2028년경까지 AI 모델 학습에 사용되는 데이터셋 크기가 인터넷에 존재하는 텍스트 총 재고와 같은 크기에 도달할 것이라고 예측했다. 이는 2028년경까지 AI가 학습 데이터를 모두 소진할 가능성이 높다는 걸 의미한다. 데이터셋 부족에 더해 신문사 등 데이터 소유자가 콘텐츠 사용을 취체하기 시작하고 접근을 더욱 엄격히 하는 것도 AI 연구자에게는 장애물이 되고 있다.

이런 문제는 AI 연구자 사이에서도 인식되고 있으며 기존 데이터셋을 모두 소진해 학습 확장이 한계에 근접한다는 법칙이 언급되곤 한다. 데이터셋 부족을 보완하기 위해 AI 연구자는 학습 방법을 변경하는 등 AI 성능 향상을 모색하고 있다.

예를 들어 오픈AI와 앤트로픽 같은 유명 AI 기업은 데이터셋 부족 문제를 공개적으로 인정하면서 새로운 데이터 생성이나 기존과는 다른 데이터 소스 발견 등 문제를 회피하기 위한 계획이 있음을 시사하고 있다. 오픈AI 담당자는 자사는 공개 데이터, 파트너십을 통해 얻은 비공개 데이터, 생성을 통해 얻은 합성 데이터, AI 트레이너로부터의 데이터 등 많은 정보원을 활용하고 있다고 말했다.

또 오픈AI를 떠나 AI 안전성 개선에 힘쓰는 기업인 세이프슈퍼인텔리전스(Safe Superintelligence)를 설립한 일리야 수츠케버는 최종적으로는 기존 모델 학습 방법에서 전환이 강제될 것이라며 차세대 모델은 이전에 본 걸 기반으로 패턴 매칭을 수행하는 기존 AI와는 달리 더 사고에 가까운 방식으로 점진적으로 문제를 해결할 수 있게 될 것이라고 말했다.

데이터셋이 부족해지면 AI가 새로운 정보를 취입할 수 없게 되어 AI 진보가 정체될 가능성이 있지만 반대로 AI가 생성한 데이터를 포함시키면 데이터의 신뢰성에 의문이 생긴다.

보도에선 다양한 회피 방안이 모색되고 있지만, 그래도 데이터 부족은 AI 모델에 변화를 강요할 수 있다며 아마도 대규모이고 범용적인 LLM에서 소규모이고 더 전문적인 모델로 상황이 전환될 가능성이 있다고 지적했다.

데이터셋을 확장하지 않고 모델 계산 능력이나 매개변수 수를 확장하는 건 가능하지만 그 경우 AI 처리 속도가 느려지고 비용이 높아지는 경향이 있다. 천문학이나 게놈 데이터 등 AI 진보로 급속히 증가하는 특수한 데이터셋을 학습하는 방법도 있지만 극단적으로 전문성이 높은 모델만 만들 수 있는 가능성도 있다.

보도에선 일부 모델은 이미 라벨이 없는 동영상이나 이미지로 어느 정도 훈련이 가능하다며 이런 데이터로 학습하는 기능을 확장하고 개선해 더 풍부한 데이터에 대한 문이 열릴 가능성이 있다고 언급했다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기