EU, AI 학습 데이터 공개 의무화 법안 제출

AI 학습 데이터 공개를 기업에 의무화하는 법안이 EU에서 제출되어 성립에 한 걸음 더 다가선 것으로 밝혀졌다.

새로운 법안에 따르면 문장 생성 AI인 챗GPT와 이미지 생성 AI인 스테이블 디퓨전, 미드저니 등을 서비스하는 기업에 대해 시스템 개발에 이용한 학습 데이터를 정리해 데이터 상세를 개시하는 의무가 부과된다는 것.

AI는 세상에 넘치는 문장이나 이미지, 동영상 수십억 개를 학습해 고정밀 콘텐츠를 만들 수 있지만 학습에 사용된 데이터 중에는 저작권으로 보호된 콘텐츠도 포함되어 있다는 지적이 나온다. EU는 이런 상황을 감안해 2021년 초안을 마련한 AI 법안에 학습 데이터 공개를 의무화하는 조항을 담았다. 이 법안이 2023년 4월 새롭게 검토되어 성립을 위한 다음 단계로 진행되는 게 결정된 것.

이 법안이 통과되면 자신의 콘텐츠가 어느 정도 학습에 사용됐는지 파악하려는 크리에이터에게 도움이 된다. 저작권으로 보호된 콘텐츠가 학습됐다는 걸 알게 되면 저작자가 이익 분배를 요구하거나 소송을 제기할 수 있다.

일반 데이터 보호 규칙 GDPR 하에서 기업 데이터 수집이 엄격하게 규제되고 있는 EU에선 이탈리아가 챗GPT 이용을 금지하고 독일과 프랑스가 이탈리아를 따르는 움직임을 보이고 있다. GDPR 하에서 기술 기업이 개인 데이터를 이용해 제품을 학습시킬 때에는 사용자 동의를 받아야 한다. 또 EU에서 사업을 전개하는 기업은 데이터 수집과 공유를 EU 사용자가 거부할 수 있는 옵션을 제공해야 한다. 챗GPT를 금지한 이탈리아 데이터 보호 기관은 개발사인 오픈AI에게 4월 30일까지 이탈리아와 EU 법률 준수를 요구했다.

하지만 AI 전문가는 오픈AI 모델은 인터넷에서 수집한 대량 정보를 바탕으로 학습됐기 때문에 개발자조차 어떤 데이터가 수집됐는지 정확하게 파악할 수 없다고 지적한다. 오픈AI가 요구에 부응하는 게 불가능에 가깝다는 것이다.

새로운 법안에선 챗GPT를 포함한 모든 제너레이티브 AI를 관리하는 조직이 규제 대상이어서 이런 조직은 AI 운영에 대한 투명성을 보장해야 한다. 보도에 따르면 일부 위원회 관계자는 처음에는 저작권 보호 콘텐츠를 학습에 사용하는 걸 완전 금지하는 걸 제안했지만 이는 투명성 요구 사항이 지지되며 포기했다고 한다. 의회는 AI를 비례적으로 규제하고 시민 권리를 지키는 동시에 혁신을 촉진하고 경제를 활성화하기 위한 타협점을 찾아냈다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.