스테이블 디퓨전(Stable Diffusion)과 미드저니(Midjourney) 등 유명한 이미지 생성 AI에서 사용된 데이터세트인 LAION-5B에서 아동 성적 학대 콘텐츠(CSAM)가 발견된 문제로 인해 LAION-5B 개발사인 LAION이 해당 CSAM을 삭제한 Re-LAION-5B를 새롭게 발표했다.
2023년 12월 인터넷 안전성을 연구하는 스탠퍼드 인터넷 감시 단체가 LAION-5B에 CSAM이 포함되어 있다고 지적했다. 보고서에 따르면 인터넷에서 수집된 58억 개 이미지 링크 중 CSAM 또는 CSAM 가능성 있음으로 판단된 링크가 1,008개 발견됐으며 이런 데이터세트가 일부 이미지 생성 AI가 아동을 묘사한 딥페이크를 쉽게 생성할 수 있는 원인 중 하나라고 전해졌다.
보고 이후 LAION은 LAION-5B를 즉시 삭제하고 스탠퍼드 인터넷 감시 단체와 캐나다 및 영국 아동 학대 방지 단체와 협력해 문제가 된 링크 삭제 작업에 착수했다. 8개월간 처리 끝에 LAION은 보고된 1,008개 링크를 포함해 2,236개에 이르는 CSAM 링크를 데이터세트에서 삭제했으며 이런 링크가 제거된 깨끗한 데이터세트로 Re-LAION-5B를 발표했다.
링크 삭제 외에도 LAION은 새로운 안전 기준을 도입했다고 발표했다. LAION에 따르면 이전에는 불법 콘텐츠가 LAION 필터링을 피해 포함될 수 있었지만 Re-LAION-5B에서는 필터링이 강화되어 의심스러운 링크 대부분이 제거됐다고 한다.
LAION은 LAION-5B는 2022년 9월까지의 크롤링 데이터에 기반해 설계됐으며 Re-LAION-5B에는 LAION-5B에 이미 포함된 링크 외에 새로운 콘텐츠는 존재하지 않는다면서 따라서 데이터세트에 새로운 의심스러운 미확인 링크가 포함될 가능성은 없으며 Re-LAION-5B는 협력 기관에 의해 확인된 모든 CSAM 링크와 비교 검증됐다며 연구자가 더 안전하게 사용할 수 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.