테크레시피

이미지 생성 AI, 오리지널 똑같이 복제할 가능성 있다

이미지 생성 AI가 오리지널 이미지를 똑같이 복사할 수 있다는 지적이 나왔다. 구글과 딥마인드 등 기술 업계와 캘리포니아대학 버클리, 프린스턴대학 등 학술계 공동 연구팀이 AI에 대한 보고서를 공개한 것.

이에 따르면 요즘 AI는 학습 데이터 이미지를 완전히 기억할 수 있다고 한다. 학습 데이터를 기반으로 새로운 이미지를 만드는 대신 데이터 완성 복사본 거의 동일한 이미지를 만들 수 있다는 것. 이 학습 데이터 그러니까 오리지널 이미지에는 저작권이 있는 것도 있어 그대로 세상에 나와 버리면 저작권 이슈가 생길 수 있다.

연구팀이 공개한 이미지를 보면 학습 데이터에는 캡션이 있으며 이미지 생성 AI인 스테이블 디퓨전으로 생성한 이미지와 원본 이미지를 비교했지만 학습 데이터의 완전 복제본이 됐다는 것이다. 물론 완전히 복제한 듯한 이미지는 드물다. 이미지 30만 개를 시도해봤지만 AI가 원본을 그대로 기억하고 있었던 건 0.03% 빈도일 만큼 복사한 듯한 이미지 생성물은 희귀하다고 한다.

이번 연구 대상에는 스테이블 디퓨전과 구글 이메진(Imagen)을 이용했지만 이메진의 경우 일단 데이터세트에 이미지가 등록되면 이 이미지를 기억할 수 있다고 한다. AI는 이미지를 생성하는 게 목적이며 복사가 아니라는 점에 주의해야 한다. 또 AI가 더 가속화되는 가운데 이번에 밝혀진 오리지널 복제가 가능한 AI 기억력에 의한 위험에 대해서도 검토할 필요가 있다는 설명이다. 최근 이미지 생성 AI와 저작권 관련 재판이 몇 건 생겼지만 이번 연구는 재판에도 크게 영향을 미칠 가능성도 있다.

연구팀은 유무료를 불문하고 AI를 제공하는 기업은 사용자에게 얼마나 저작권에 대해 주의 환기를 할 수 있는지에 대해서도 의문을 던지고 있다. 문제는 저작권 뿐 아니라 개인 정보 유출까지 다양할 수 있다. 만일 AI가 어딘가에서 누군가의 개인 정보를 접해 이를 기억하고 복제해 쓴 걸 어딘가에서 생성 데이터로 내보냈을 경우다. 상당히 드문 일이지만 급성장하는 AI 업계에선 이 같은 작은 위험도 위협이 될 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular