테크레시피

AI 생성 콘텐츠를 반복 학습하게 되면…

어도비가 권리상 문제를 해결한 학습 모델을 이용한 이미지 생성 AI인 파이어플라이를 발표하고 마이크로소프트 검색 엔진인 엣지에서 대화형 AI인 챗GPT가 활약하거나 세계적인 컨설팅 기업이 사원 50%는 업무에 제너레이티브 AI를 활용하고 있다. 하지만 AI를 이용해 콘텐츠를 제작, 공개하는 사람이 늘어나며 새로운 문제로 AI가 생성한 콘텐츠가 인터넷상에 넘쳐 이를 AI가 학습하는 것으로 중대한 결함이 생겼다는 게 연구자 그룹으로부터 지적됐다.

프롬프트를 입력하는 것만으로 고정밀도 이미지를 생성할 수 있는 스테이블 디퓨전이나 대화 형식으로 고정밀도 문장을 작성하는 챗GPT라는 제너레이티브 AI가 급속도로 퍼진 요인에는 대규모 언어 모델 LLM이 중요한 역할을 하고 있다. 유연하고 적응성이 높은 LLM과 함께 대량 학습 데이터를 수집해 AI는 이미지와 문장 구조를 기억한다.

원래 LLM이나 기타 학습에 사용되는 데이터는 책이나 인터넷 기사, 사진이나 일러스트 등 인간이 과거에 AI 도움 없이 작성했던 것이다. 하지만 제너레이티브 AI 발전에 따라 AI로 콘텐츠를 작성해 인터넷상에 공개하는 사람이 늘어난 영향으로 학습 기초가 되는 학습 데이터에 영향이 나오고 있다고 우려되고 있다. 영국과 캐나다 연구 그룹은 2023년 5월말 아카이브에 논문을 발표해 일반적인 AI 기술의 미래에 대해 우려해야 할 사실이 밝혀지고 있다고 밝혔다.

연구팀은 텍스트에서 텍스트로의 일반 AI 모델과 이미지에서 이미지로의 일반 AI 모델 확률 분포에 주목한 결과 장기 학습에 거의 이상적인 조건의 경우에도 데이터 분산 절차는 불가피하다. 시간이 지남에 따라 생성된 데이터 오류가 쌓여 궁극적으로 생성된 데이터에서 학습해 AI 현실을 더 잘못 인식하게 된다고 설명하고 있다. 연구팀에 따르면 학습 모델은 처음에 학습한 원본 데이터를 곧 잊어버릴 수 있다고 밝히고 있다.

연구팀은 또 제너레이티브 AI 학습 모델이 재귀해 부정확하게 되는 상태를 바다에 플라스틱 쓰레기를 뿌려 대기를 이산화탄소에 채웠던 것처럼 인터넷을 어떻게 하자 없는 정보로 가득 채우려고 한다며 LLM은 불 같은 것이며 편리한 도구지만 환경을 오염시킨다고 표현하고 있다.

또 인터넷상 콘텐츠에 AI를 이용해 생성된 콘텐츠가 늘어나기 때문에 인터넷을 스크래핑해 새로운 모델을 학습하기가 어려워지고 결과적으로 이미 충분한 학습 데이터를 얻은 기업과 생성한 콘텐츠를 대규모로 관리할 수 있는 기업이 일방적으로 유리해진다고 지적하고 있다. AI 스타트업이 깨끗한 학습 데이터를 요구하고 인터넷 아카이브에 대규모 액세스 요청을 한 게 인터넷아카이브 블로그를 통해 밝혀지기도 했다.

연구팀은 AI 콘텐츠에 의해 학습 데이터가 붕괴되는 메커니즘을 데이터 편향에 의한 것이라고 설명한다. 인간에 의해 생성된 전 데이터는 세계를 더 공평하게 나타내는 반면 제너레이티브 AI 모델은 인기 데이터를 과잉 우선하는 경향이 있어 그다지 인기 없는 데이터를 오해하거나 잘못 표현하는 게 많다고 한다. 진행 과정에서 왜곡이 일어나거나 소수 데이터 특성이 손실되는 걸 데이터 붕괴라고 표현한다.

더구나 이를 피하기 위해 학습 사이클을 많이 반복하지 않게 모델을 학습한 경우에도 모델은 빈번한 데이터 반복을 피하기 위해 잘못된 응답을 위로 시작하기 때문에 여전히 모델 붕괴가 발생하는 걸 알 수 있다. 모델 붕괴에 대한 대책으로 논문에선 원본 데이터세트의 독점적이고 명목상 인간이 작성한 데이터세트 고급 복제를 보관, 유지하고 정기적으로 학습하거나 완전히 리프레시해 AI가 생성한 데이터에 오염을 회피하고 인간이 생성한 새로운 깨끗한 데이터세트를 학습에 도입한다는 아이디어를 내놓고 있다.

데이터 붕괴를 막으려면 학습량을 확실히 확보하고 특징을 정확하게 묘사한 다음 데이터세트 내에서 소수 그룹이 공정하게 표현되도록 설정하는 게 중요하다. 인간이 작성한 데이터를 10% 학습에 포함하면 AI 콘텐츠를 재귀적으로 이용해도 모델 부괴는 그렇게 빨리 발생하지는 않을 것이라면서도 그럼에도 여전히 붕괴가 발생한다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독