이미지 생성 AI, 기억에 근거해 학습 화상을 거의 그대로…

이미지 생성 AI는 법적, 윤리적으로 격렬한 논의 대상이 되고 있지만 논점 중 하나는 학습에 사용되는 방대한 데이터세트다. AI 학습에 사용되는 데이터세트에는 인터넷에서 수집된 이미지도 다수 포함되어 있으며 저작권 문제가 해소되지 않은 게 문제시되고 있다. 스테이블 디퓨전(Stable Diffusion) 같은 잠재 확산 모델 이미지 생성 AI에서 학습에 사용된 데이터세트에 포함된 이미지를 거의 그대로 생성하는데 성공했다는 논문을 구글, 딥마인드, 캘리포니아대학 버클리, 프린스턴대학, 취리히공대 연구팀이 발표했다.

연구팀은 스테이블 디퓨전 v1.4에서 1억 7,500만 장 이미지를 생성하고 이 가운데 35만 장에서 학습에 사용된 데이터세트 이미지 1억 6,000만 장과 비슷한 걸 추출했다. 그 결과 직접 일치하는 이미지 94장과 닮은 것으로 보이는 이미지 109장을 특정할 수 있었다고 한다.

물론 스테이블 디퓨전 학습에 사용되는 데이터세트 크기는 2GB라는 스테이블 디퓨전 모델 데이터 파일 크기보다 훨씬 크기 때문에 스테이블 디퓨전에 그대로 데이터세트 이미지 데티터가 남아 있는 건 아니다. 논문에 표시된 일치율도 불과 0.03%이며 AI가 데이터세트에 포함된 것과 정확하게 동일한 이미지를 추출할 활률은 매우 낮다고 할 수 있다.

스테이블 디퓨전 같은 이미지 생성 AI는 학습한 이미지를 그대로 잘라내는 게 아니라 방대한 이미지에서 얻은 학습 결과를 통계적 가중치로 압축해 저차원인 잠재 공간에 저장해 이 잠재 공간을 이용해 노이즈로부터 이미지를 생성하는 구조다. 이 때문에 데이터세트 이미지 자체는 AI 모델에 포함되어 있는 건 아니며 원칙적으로 데이터세트 이미지를 그대로 출력하는 건 없다고 한다.

Q: i saw stable diffusion create an exact duplicate of the mona lisa just like a little fucked up. you said the ai isn't plagiarizing. what gives?
A: this is called "overfitting" and its a sign that an ai has SO MANY duplicates of a particular thing. i'll let discord-me explain. pic.twitter.com/3g6leb4Ad9
— mx. curio (commissions era) (@ai_curio) August 31, 2022

하지만 이미지 생성 AI를 데이터세트로 학습시킬 때 이 데이터세트에 동일 이미지가 여러 장 포함되는 경우 AI가 이 이미지에 과도하게 적합하게 되어 AI로부터 범용성이 손실되는 과학습이 일어날 수 있다. 실제로 스테이블 디퓨전에선 레오나르도 다빈치의 모나리자 등 특정 이미지에 대한 과학습이 AI에 기억이라는 형태로 남아 버린다는 지적도 있다.

See our paper for a lot more technical details and results.

Speaking personally, I have many thoughts on this paper. First, everyone should de-duplicate their data as it reduces memorization. However, we can still extract non-duplicated images in rare cases! [6/9] pic.twitter.com/5fy8LsNbjb
— Eric Wallace (@Eric_Wallace_) January 31, 2023

연구팀은 AI 모델 개발자는 데이터세트에서 이미지 중복을 제거하고 메모리를 줄여야 한다고 제안하고 있다 이번에 발표된 논문은 이미지 생성 AI는 학습한 데이터세트 이미지를 기억하지 않는다거나 이미지 생성 AI가 출력하지 않는 한 데이터세트에 포함된 이미지는 비공개 상태라는 주장에 반하는 것이다. 연구팀은 앞으로 스테이블 디퓨전 등 이미지 생성 AI를 둘러싼 소송이 늘어나는 가운데 이번 논문이 재판 증거 등에 사용될 가능성이 있다고 인정하고 있지만 어디까지나 연구 목적은 미래 잠재 확산 모델을 개선하고 과학 학습 기억에 의한 해를 줄이는 것이라고 강조하고 있다. 관련 내용은 이곳에서 확인할 수 있다.