테크레시피

이미지 생성 AI 학습 데이터에 내 의료 기록 사진이?

이미지 생성 AI 달리2(DALL·E2) 등을 이용한 예술 작품을 다루는 아티스트가 AI 학습용 데이터세트로 제공되는 사진 중 자신이 병원에서 치료를 받고 있을 때 촬영된 사진을 찾았다고 신고했다. 이에 따라 한 번 인터넷에 유출된 데이터를 지우는 게 상당히 곤란하다는 게 재차 강조되고 있다.

AI 아티스트인 라파인(Lapine)은 지난 9월 17일 트위터에 자신의 얼굴이 LAION 데이터세트에 포함됐다며 이는 2013년 임상기록으로 의사가 촬영한 것이라고 밝혔다. 또 의사는 2018년 사망했지만 사진이 어딘가에 유출되어 데이터세트에 들어갔을 것이라고 덧붙였다. 그의 트윗에는 의료 기록 사용을 인정하는 취지 동의서 사진도 첨부되어 있다.

문제가 된 데이터세트는 인터넷에 공개된 이미지 50억 점 이상을 수집해 만든 LAION-5B다. 라파인은 자신의 작품이 LAION-5B에 포함되어 있는지 어떤지 확인할 수 있는 사이트(Have I Been Trained?)를 통해 우연히 자신의 얼굴 사진을 발견한 것.

그는 피부나 치아, 뼈 등 신체 모든 부분에 영향을 미치는 선천성 각화부전증이라는 유전성 질환을 앓고 있다고 한다. 치료 일환으로 그는 얼굴 윤곽을 재건하는 수술을 받았지만 이 때 외과 의사가 촬영한 얼굴 사진이 의사 사후 누군가에 의해 도난당하고 유출되어 LAION-5B에 수집된 것으로 추정하고 있다.

보도에선 사진 검색 중 다른 환자 의료 기록으로 보이는 사진도 수천 장 발견됐으며 일부는 윤리적 혹은 법적 정당성이 의심스러운 것도 있었다고 한다. 이런 사진이 미드저니와 스테빌리티 AI가 상업 서비스로 제공하는 인기 이미지 생성 서비스 일부가 될 수 있다는 지적이다. 라파인은 자신의 의료 기록 사진이 무허가로 나와 AI 학습에 이용된다는 것에 대해 사진이 유출된 것만으로도 충분히 끔찍한 일이지만 지금은 이게 제품 일부가 되어 버렸다며 의료 기록이든 아니든 누구의 사진이라도 발생할 수 있다고 지적했다.

LAION은 인터넷 상에 있는 이미지 URL을 정리한 데이터세트이기 때문에 LAION이 이미지 자체를 직접 보유하고 있는 건 아니다. 따라서 라파인이 LAION에 데이터세트에서 이미지를 삭제하는 방법에 대해 문의해도 인터넷에서 이미지를 삭제하는 가장 좋은 방법은 이미지를 호스팅하는 사이트에 멈추라고 요청하는 것이라며 이런 이미지를 전혀 호스팅하지 않는다고 답했다고 한다.

미국에선 인터넷에 게재된 데이터를 수집하고 정리하는 웹스크래핑은 합법이라는 판결이 2019년 나와 있기 때문에 LAION 같은 서비스에 직접 이미지 삭제를 요구하는 건 어렵다고 한다. LAION은 부득이한 경우 조치로 사용하지 않을 URL 목록을 만들어 배포하고 해당 이미지를 블랙리스트에 넣도록 요청할 걸 제안했다.

보도에선 이미지 생성 AI 기술 미래에 대해 AI를 탑재한 크리에이티브 툴이 필연적인 기술적 진보라는 게 밝혀지고 있지만 10년 전 인터넷에 이미지를 올린 사람이나 불법으로 자신의 이미지가 올려진 사람이 자신의 데이터가 미래 AI 교육에 사용된다는 걸 침묵으로 받아들이는 걸 기대하는 게 윤리적인 것이냐며 대답은 아니오라고 해도 문제가 되지 않는다고 지적하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사