인터넷상에는 방대한 데이터가 존재하며 이를 학습해 만들어진 AI가 속속 등장하게 됐다. AI 보급이 폭발적으로 진행되는 한편 연구자는 AI 시스템을 움직이는 연료인 학습 데이터가 고갈될 수 있다고 우려하는 목소리가 높아지고 있다.
정확하고 강력한 AI 학습을 위해선 방대한 데이터가 필요하다. 호주 맥쿼리대학 연구자에 따르면 챗GPT는 570GB, 문장량으로 3,000억 단어 텍스트 데이터로 학습하고 있다고 한다. 마찬가지로 달리, 렌사, 미드저니 같은 이미지 생성 AI를 지원하는 스테이블 디퓨전 알고리즘은 58억 개 이미지와 텍스트 쌍으로 이뤄진 데이터세트 LIAON-5B로 학습됐다. 이런 알고리즘 학습 데이터가 불충분하면 AI가 출력하는 데이터는 부정확하게 되거나 저품질이 되어 버린다.
학습 데이터는 양 뿐 아니라 질도 중요하다. 예를 들어 소셜미디어 게시물과 흐릿한 사진 같은 저품질 데이터는 쉽게 얻을 수 있지만 고성능 AI 모델 학습에는 적합하지 않다. 더 심각한 문제는 SNS에서 얻은 텍스트 데이터가 편견과 차별로 가득 찰 위험, 가짜 정보와 불법 콘텐츠가 혼동될 위험이 있다는 것이다.
일례로 마이크로소프트가 엑스 콘텐츠를 이용해 AI를 학습하려다가 AI는 여성 차별이나 인종 차별에 묻힌 발언을 생성해 버리게 됐다. 이런 전례가 있기 때문에 AI 개발자는 책과 과학 논문, 위키피디아, 온라인 기사, 필터링된 특정 콘텐츠 텍스트 등 고품질 데이터를 찾게 됐다. 예를 들어 구글은 구글 어시스턴트 대화 기능을 개선하기 위해 자비 출판 사이트(Smashwords) 내 연애 소설 1만 1,000권을 이용하고 있다.
챗GPT와 달리3 같은 고성능 모델은 이런 고품질 데이터세트를 풍부하게 학습해 만들어졌지만 성장에 한계가 있다. 아카이브에서 2022년 발표한 논문에 따르면 지금 상태로 AI가 학습되면 2026년까지 고품질 텍스트 데이터가 고갈되고 저품질 텍스트 데이터는 2030∼2050년 사이, 저품질 이미지 데이터는 2030∼2060년 사이 고갈될 것으로 예측됐다.
컨설팅기업 PwC에 따르면 AI는 2030년까지 전 세계 경제에 최대 15.7조 달러 경제 효과를 가져올 가능성이 있다고 한다. 하지만 2030년까지 AI에 학습시키는 데이터가 바닥을 치며 AI 발전이 늦어버리게 된다.
물론 연구자는 상황은 겉보기에는 나쁘지 않을지도 모른다며 AI 모델 발전에 대해선 미지수인 부분이 많기 때문이라고 말한다. 또 데이터 부족 위험에 대처하는 방법을 모색하고 있다. 이 방법 가운데 하나는 알고리즘을 개선해 기존 데이터를 더 효율적으로 사용할 수 있도록 하는 것이다. 사용하는 데이터를 절약할 수 있게 되면 적은 연산 능력으로 더 고성능 AI 시스템을 학습할 수 있게 되어 AI 개발 과정에서 배출되는 이산화탄소 감축으로 이어진다.
또 다른 방법은 AI를 이용해 학습용 데이터를 합성하는 것이다. 이를 통해 AI 개발자는 특정 AI 모델에 맞게 필요한 데이터를 합성할 수 있다. 이미 일부 프로젝트가 AI 모델용 합성 데이터 제작 기업인 모스틀리AI(MOSTLY AI)로부터 입수한 합성 콘텐츠를 활용하고 있어 이 방법은 앞으로 더 일반화될 가능성이 있다.
AI 개발자는 또 주요 출판사와 오프라인 리포지토리가 소유한 콘텐츠와 같은 무료 인터넷 이외 장소에서도 활로를 찾았다고 한다. 2023년 9월 세계 최대 뉴스 콘텐츠를 보유한 뉴스코프(News Corp)는 AI 개발자와 콘텐츠 거래에 대한 협상을 진행하고 있다고 발표했다. 이처럼 지금까지 무료 콘텐츠를 중반 무단으로 사용해온 AI 개발은 유료 콘텐츠에 돈을 지불하는 방향으로 이동하고 있다.
이런 흐름에 대해 연구자는 크리에이터는 AI 모델 학습에 자신의 콘텐츠가 무허가로 사용되는 것에 항의하고 있으며 마이크로소프트나 오픈AI, 스태빌리티AI 등 AI 기업을 호소하는 사람도 있다면서 자신의 직업에 대해 보상을 받게 되면 크리에이터와 AI 기업 사이에 존재하는 힘의 불균형이 개선될 수 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.