이미지 생성 AI 데이터세트에 동의 없이 아이 사진을…

이미지 생성 AI인 스테이블 디퓨전(Stable Diffusion) 등 학습에는 58억 5,000만 개에 달하는 이미지와 텍스트 조합으로 이뤄진 데이터세트 LAION-5B가 사용되고 있다. 인권 NGO인 휴먼라이츠워치(HRW)는 최근 LAION-5B에 브라질 아동 사진이 동의 없이 사용되어 있으며 많은 아동이 신원 추적이 가능하다고 보고했다.

LAION-5B는 독일 비영리 단체인 LAION(Large-scale Artificial Intelligence Open Network)이 2022년 3월 출시한 오픈 데이터세트로 이미지 분류 모델인 CLIP으로 필터링된 58억 5,000만 개 이미지와 텍스트 조합으로 구성되어 있다. 이런 이미지와 텍스트는 인터넷 상 데이터를 제공하는 커먼크롤(Common Crawl) 파일을 분석하고 유사성이 높은 이미지와 텍스트 쌍을 추출하는 방법으로 수집됐기 때문에 데이터세트 제작자조차도 내용을 정확하게 파악할 수 없다.

과거에는 LAION-5B 데이터세트에 1,000장 이상 아동 성인물 이미지가 포함되어 있음이 밝혀져 삭제되는 사태가 발생하기도 했다. 조사에 따르면 LAION-5B에는 소셜 미디어, 웹사이트, 인기 있는 성인 비디오 사이트 등에서 알려진 아동 성학대 이미지(CSAM)가 수집되어 있었다고 한다.

HRW는 새로운 조사에서 LAION-5B 데이터세트에서 브라질 내 적어도 10개 주에서 찍힌 아동 사진 170장을 발견했다. 일부 아동은 이름이 첨부된 텍스트에 포함되어 있거나 이미지 URL이 저장되어 있거나 촬영 장소를 알 수 있어서 대부분 아동 신원을 확인할 수 있었다고 보고됐다.

조사에서 발견된 사진은 장갑을 끼고 아이를 안고 있는 의사부터 생일 케이크 촛불을 불어 끄는 유아, 집에서 속옷만 입고 춤추는 아이, 학교에서 프레젠테이션을 하는 학생, 고등학교 축제에서 사진을 찍는 청소년까지 아동 세대 전체를 아우르고 있었다. 이런 사진 대부분은 소수만 볼 것으로 예상되는 것으로 개인 블로그나 육아 블로그에 업로드됐거나 재생 횟수가 적은 유튜브 동영상을 정지 화면으로 잘라낸 것이었다고 한다.

LAION은 HRW가 발견한 아동 사진이 데이터세트에 포함되어 있다는 걸 인정하고 삭제를 약속했다. LAION 측은 상당히 우려되는 문제이며 비영리 자원봉사 단체로서 지원을 위해 최선을 다하겠다고 말했다. 하지만 이번에 HRW가 조사한 건 LAION-5B 데이터세트 0.0001% 미만이었으므로 이번에 발견된 사진은 빙산의 일각에 불과하다고 여겨진다.

LAION-5B 데이터세트에 포함되어 버린 아동 사진은 이미지 생성 AI 출력에 사용될 수 있다. LAION은 데이터세트로 훈련된 AI 모델이 원 데이터를 그대로 재현할 수는 없다고 주장하고 있지만 이미지 생성 AI를 사용해 여성 누드 이미지를 생성하는 사건이 전 세계에서 잇따르고 있다는 걸 고려하면 아동 사진이 아동 성인물 출력에 기여하고 있을 가능성이 있다.

브라질에서는 적어도 소녀 85명이 이미지 생성 AI를 사용한 딥페이크 피해를 입었다고 한다. HRW는 조작된 미디어는 이전부터 존재했지만 생성에는 시간, 자원, 전문 지식이 필요했으며 대부분은 실제와 다르다는 것이었다며 오늘날 AI 도구는 몇 초 만에 진짜와 똑같은 이미지를 출력하며 대부분 무료로 사용하기 쉽기 때문에 동의 없는 딥페이크가 확산되어 평생 동안 온라인에서 재순환하고 영구적인 피해를 입힐 위험이 있다고 지적했다.

연구팀은 아동은 사진이 훔쳐지거나 무기화될 수도 있다는 공포 속에서 살아가야 한다며 정부는 AI에 의한 악용으로부터 아동 데이터를 보호하기 위한 정책을 신속하게 도입해야 한다며 생성 AI에 의한 아동 피해를 막는 노력이 중요하다고 주장했다. 관련 내용은 이곳에서 확인할 수 있다.