테크레시피

“AI 학습용 데이터세트, 대학 등에 맡겨 법적 책임 회피”

이미지 생성 AI인 스테이블 디퓨전(Stable Diffusion)이 무료 일반 공개된 걸 계기로 이미지 생성 AI 진보가 급속도로 이뤄지고 있다. 한편 AI 모델 학습에 사용되는 데이터세트 권리 문제를 지적하는 목소리도 높아지고 일부에선 법적 책임을 추궁하는 논의도 이뤄지고 있다. 인터넷에서 다양한 활동을 하는 개발자 앤디 바이오는 대학과 비영리단체 연구자가 대형 기술 기업이 책임으로부터 도피하기 위한 은폐 도구가 되고 있다고 비판하고 있다.

지난 9월 메타는 동영상 생성 AI인 메이크어비디오(Make A Video)를 발표했다. 이 AI는 문자열을 입력하는 것만으로 동영상을 생성한다는 것이었다. 메타는 논문에서 동영상 생성 모델에는 데이터 세트 2개(WebVid-10M, HD-VILA-100M)를 사용하고 있다고 밝혔다. 소프트웨어 개발자 사이먼 윌슨이 AI 학습용 데이터세트를 검색하는 오픈소스 툴(Datasette)로 데이터세트 2개를 조사한 결과 WebVid-10M에 포함된 비디오 클립 1,070만 개 모두에 셔터스톡 워터마크가 들어 있었다고 한다. 또 HD-VILA-100M은 마이크로소프트가 수집한 영상으로 이뤄진 데이터세트로 이 중 수백만 개가 유튜브로부터 수집된 것이었다는 걸 확인했다.

메타는 일련 데이터세트를 AI에 대한 학습이라는 연구 목적으로 사용하고 있으며 상용 이용은 하지 않는다며 하지만 바이오는 메타가 아마도 미래에 상용 이용을 상정한 뒤 AI 모델을 학습하고 있다면 이상하겠냐며 AI를 취급하는 기업이 대학이나 비영리단체가 수집, 훈련한 데이터세트나 모델을 상용 이용하는 건 당연하다고 말한다.

예를 들어 이미지 생성 AI인 스테이블 디퓨전은 현재 스태빌리티AI가 개발을 주도하고 있지만 원래는 뮌헨대학 루트비히맥시밀리안 기계시각학습 연구 그룹 연구에서 시작한 것이다. 이곳 연구자는 스태빌리티AI가 컴퓨터를 기부해준 덕에 개발 프로젝트가 진행됐다고 감사하고 있다고 한다.

또 스테이블 디퓨전이나 구글 이메진(Imagen), 메이크어비디오 이미지 생성 모델 확습에 이용한 데이터세트는 모두 독일 비영리단체 LAION이 작성한 것이다. 스테빌리티AI는 LAION에도 자금을 제공한다. 바이오는 대학 등 연구기관이나 비영리단체에 의해 데이터 수집과 모델 학습이 이뤄지고 있는 경우 미국 저작권법에서 인정되는 페어유스에 해당할 가능성이 높다고 보고 있다. 하지만 드림스튜디오 같은 상업 서비스를 전개 중인 스테빌리티AI가 대학이나 비영리단체가 만든 데이터세트를 이용해 모델을 학습시켜 이용 가능한 오픈소스 라이선스 하에 이미지를 생성하는 건 일종의 데이터 론더링이라고 비판하고 있다.

바이오는 워싱턴대학 연구자가 얼굴 인증 AI 학습 데이터세트에 사진 공유 커뮤니티 사이트 플리커에 있는 크리에이티브 커먼즈 라이선스 이미지를 사용한 걸 언급하고 데이터세트의 법적 책임을 지적한다. 워싱턴대학 데이터세트는 나중에 폐지됐지만 IBM이 작성한 데이터세트도 유사 문제에 대해 보도됐다. 바이오는 데이터세트 이미지 전부에서 허락을 얻는 건 비용이 들고 기술 진보를 늦출 것이라고 말한다. 그는 또 2022년 들어 AI가 급격한 진보를 이루고 있는 반면 AI 모델이나 데이터세트 작성에 대한 윤리관과 데이터세트에 사용 동의, 권리 귀속, 라이선스 표시 부족 등 문제를 해결하기 위해 노력하는 이들도 있지만 자신은 회의적이라고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독