테크레시피

“오픈AI 학습용 데이터, 저작권 침해” 집단 소송

오픈AI가 개발한 채팅봇 AI인 챗GPT를 학습시키기 위해 사용한 학습용 데이터세트가 무수한 사람에 대한 저작권과 프라이버시를 침해하고 있다며 캘리포니아를 거점으로 한 클락슨법률사무소가 집단 소송을 일으켰다.

GPT라는 대규모 언어 모델을 기반으로 개발됐다. 그리고 GPT-3.5가 학습에 이용한 데이터세트 일부에는 비영리단체 커먼크롤(Common Crawl)이 제공하는 오픈소스 데이터세트가 사용되고 있다. 커먼크롤이 제공하는 데이터세트는 2008년 이후 인터넷으로부터 수집된 45TB 텍스트로 구성되어 있어 학습용으로 필터링해도 여전히 570GB 크기라고 한다.

클락슨법률사무소는 오픈AI가 사용자에게 동의를 요구하거나 경고하지 않고 인터넷에 있는 방대한 텍스트를 이용해 GPT와 챗GPT를 학습했다는 건 연방과 주 개인 정보보호법을 위반한다고 주장하며 2023년 6월 28일자로 캘리포니아주 북부 지구 연방 법원에 소장을 제출했다. 원고 측인 클락슨법률사무소는 오픈AI에 대해 다양한 안전 대책을 취할 때까지 챗GPT 제공을 일시 정지한다는 것. 또 오픈AI의 AI를 평가하는 독립적인 평의 조직 설립, 동의 없는 개인 정보를 스크래핑한 것에 대한 손해배상 지불을 요구하고 있다.

클락슨법률사무소는 오픈AI와 파트너인 마이크로소프트는 동의 없이 개인 정보를 수집하고 있음에도 불구하고 AI 기술로부터 엄청난 이익을 얻을 준비를 하고 있다고 주장했다. 또 마이크로소프트는 오픈AI에 수십억 달러 투자를 실시해 강력한 기술을 통해 전 세계적인 규모로 AI 경쟁을 일으켰다며 기술 구축을 위해 엄청난 데이터량을 수집했지만 허가 없이 수집한 것이라고 지적했다.

미국에선 학습용 데이터세트에 사용되는 데이터 저작권에 대해 법적으로 명확하게 규정되어 있지 않다. 미국에는 페어유스가 존재하지만 학습용 데이터세트에 대한 데이터 이용이 페어유스에 해당할지는 여전히 논의되고 있다. 챗GPT 같은 제너레이티브 AI인 스테이블 디퓨전과 미드저니도 학습에 이용한 데이터세트인 LAION-5B에 포함된 이미지가 아티스트나 크리에이터로부터 동의 없이 사용되고 있다며 집단 소송이 일어나고 있다.

한편 오픈AI는 지난 4월 입력한 개인 정보나 기밀 정보를 학습에 이용하지 않도록 거부하는 설정을 챗GPT에 추가하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사