스테이블 디퓨전(Stable Diffusion)과 미드저니(Midjourney) 같은 이미지 생성 AI는 많은 이미지로 이뤄진 데이터세트로 학습을 수행한다. 고정밀도 2차원 일러스트를 생성할 수 있어 화제가 된 노블AI(NovelAI)도 학습한 데이터세트에 해외 2차원 화상 사이트 단보루(Danbooru) 이미지도 많이 포함하고 있다고 한다. 이런 단보루 운영팀이 노블AI에 대한 성명을 발표했다.
단보루는 2차원 일러스트를 게시하고 공유할 수 있는 사이트로 그 중에서도 일러스트에 그려진 내용을 나타내는 태그가 풍부하고 검색성이 뛰어나 인기가 있다. 하지만 단보루에 올라온 2차원 일러스트 대부분은 트위터 등 SNS에 올라온 작품 전재인 게 문제가 되고 있다.
이런 단보루 운영팀은 이미지 삭제 요청은 이메일로 부탁한다며 해당하는 이미지 단보루 URL과 자신이 이 이미지 권리자인 증거를 첨부해 받을 수 있으면 다행이라고 밝히고 무허가 전재에는 대응한다고 밝히고 있다.
단보루는 또 단보루 이미지를 데이터세트에 사용하는 노블AI에 대해 성명문을 발표했다. 내용은 이렇다. 첫째 단보루가 노블AI와 관련이 없다는 걸 깨닫고 이들이 하는 일을 지지하는 걸 확실히 용납하지 않는다는 걸 분명히 한다는 것이다. 자신이 그린 이미지를 노블AI에 이용하고 싶지 않은 저작권자에게 가장 효율적인 수단은 노블AI에 직접 문의해 회사 학습 데이터에서 자신의 이미지를 삭제하고 AI 아트를 생성할 때 사용자가 입력하는 프롬프트에서 자신의 이름과 핸들을 빼도록 요청하는 것이다. 현재 노블AI 학습 데이터는 이미 완성되어 있어 AI 모델 구조상 예를 들어 단보루로부터 이미지를 삭제해도 해당 이미지로 학습된 정보가 노블AI에서 마음대로 없어지는 건 아니다. 비록 단보루에 한 번 오르지 않은 이미지라도 트위터 등에 개재되어 노블AI 등에 수집될 가능성이 높다고 생각해도 좋다. 다시 말해 노블AI가 단보루로부터 수집할 수 있는 이미지는 그대로 트위터로부터 수집할 수 있는 것이기도 생각할 수 있다.
원래 노블AI 등 AI 아트 생성 서비스 대부분은 스테이블 디퓨전을 기반으로 해 각자 AI 모델을 완성하고 있다. 스테이블 디퓨전 자체는 이미지 50억 장을 인터넷 여러 곳에서 학습 데이터로 수집해 완성한 것이다. 이미지를 그려 올리는 SNS나 이미지 사이트 뿐 아니라 레딧, 핀터레스트, 페이스북, 구글 이미지 검색 등 무수한 대상을 이용한 것이다. 스테이블 디퓨전에서 학습한 이미지라면 단보루에서 삭제해도 효과는 적다고 볼 수 있다. 다시 말해 저작권자가 이해해야 하는 건 AI 아트 생성 서비스 AI 모델은 단보루 뿐 아니라 인터넷 전체를 양식으로 학습하고 있다는 것. 이미지는 인터넷 어딘가에 공개되어 있는 이상 학습 데이터로 다뤄질 위험이 항상 있다. AI 모델 개발자에게 문의하는 것 외에 이를 방지할 수 있는 방법은 없는 셈이다.
단보루 운영팀은 자신의 작품이 이미지 생성 AI 학습에 사용됐는지 확인할 수 있는 사이트도 소개했다. 또 자신의 그림을 AI 학습에 사용하는 걸 원하지 않는 취지를 선언한 다음 서비스를 이용해 AI 개발자에게 통지하는 것도 가능하다. 노블AI에서 어떤 일러스트를 생성할 수 있는지에 대해선 트위터에 많이 게시되어 있다. 관련 내용은 이곳에서 확인할 수 있다.