테크레시피

“구글, AI 학습용 데이터 수집은 도용” 집단 소송

구글을 대상으로 한 집단 소송이 일어났다. 얼마 전 구글이 인터넷상에 있는 모든 걸 AI 학습 소재로 한다는 프라이버시 정책 개정에 따른 것. 원고 측 주장은 저작권 보호 하에 있는 작품이나 무수한 개인 데이터 등 인터넷상에 공유된 것 모두를 구글이 훔쳤다는 것.

구글은 인터넷도 창작물도 인간으로서의 표현도 가족이나 아이 사진도 모두 온라인에 있기 때문이라는 이유만으로 소유할 수 없다는 것. 구글이 무수한 인터넷 사용자 온라인 창작물이나 공유한 모든 걸 얻고 이를 상용 AI 제품 학습과 구축에 이용하고 있다는 걸 최근에 알게 됐다며 개인 정보나 창작 작품, 일상 성과물 등이 포함되어 있다고 지적했다.

챗GPT 개발자인 오픈AI도 거의 같은 이유로 소송 당했다. 챗GPT와 구글 바드 뿐 아니라 기타 다양한 AI도 인터넷에서 수집한 방대한 공개 정보를 사용해 학습하고 있다.

생성형 AI는 어떤 대량 데이터를 받아 학습하고 이를 바탕으로 어떤 새로운 콘텐츠를 생성한다. 이 구조가 주는 질문은 인간이 타인 작품으로부터 새로운 콘텐츠에 대한 착상을 얻은 경우 이는 전혀 합법이라는 건 사기업이 개발하는 AI가 타인 데이터를 바탕으로 콘텐츠를 생성한 경우 이를 합법이라고 할 수 있느냐는 것이다.

이에 대한 대답에는 논란의 여지가 있지만 구글에 소송한 이들은 구글은 저작권법을 위반하고 개인 정보도 합의 없이 수집하고 있다고 말한다. 소장에는 뉴욕타임스 베스트셀러 작가나 6세 아동, 소프트웨어 개발자, 틱톡 인플루언서, 배우 등 다양한 사람이 포함되어 있다.

구글 측은 오랫동안 공공 출처에서 얻은 데이터 예를 들어 공개 웹에 공개된 정보와 공개 데이터세트를 구글 번역 같은 서비스 이면에 위치한 AI 모델을 학습하는데 사용한다고 밝혀왔다고 말한다. 또 미국 법률은 공개 정보를 사용해 새로운 편익을 창조하는 걸 지원해왔다며 자사는 이런 근거가 없는 주장에는 반론해나갈 것이라고 덧붙였다.

분명히 구글 AI가 데이터를 수집하는 건 비밀이 아니다. 구글 개인정보 취급 방침에는 이전부터 공개적으로 사용 가능한 정보를 이용해 구글 번역 같은 언어 모델을 학습하는데 도움이 된다고 명시되어 왔다. 그렇지만 대다수는 프라이버시 정책을 숙독하지 않고 읽었다고 해도 언어 모델이 뭔지, AI적인게 뭔지 모르는 게 보통이다. 다만 7월 1일 구글은 개인정보취급방침을 개정해 예시하는 언어 모델을 추가했다.

구글은 서비스를 개선하고 사용자와 일반 사회에 도움이 되는 신제품, 기능과 기술을 개발하기 위해 정보를 활용한다며 구글은 공개적으로 사용 가능한 정보를 사용해 구글 AI 모델을 학습하고 구글 번역, 바드, 클라우드 AI 기능 같은 제품과 기능을 구축하는데 도움을 준다고 밝히고 있다.

하지만 이번 소장에선 구글이 데이터를 몰래 수집한 것이라고 주장되고 있다. 구글은 오랫동안 이 데이터를 비밀리에 수집해왔으며 누군가에게 주의를 주거나 합의를 하지 않았다는 것. 이 소송 원고는 구글이 적어도 50억 달러를 지불할 의무가 있다며 어떤 보호 대책이 생길 때가지 구글 AI 기술 상업 이용을 동결하는 것, 구글 AI 개발에 자신의 정보가 이용된 사람에게는 데이터 배당 지불을 요구하고 있다.

이 소송은 기본적으로 오픈AI 소송과 같지만 구글의 경우 조금 다른 건 구글 검색이라는 사회 인프라 서비스를 운영하고 있다는 것이다. 그리고 구글은 검색 서비스 기초로 오랫동안 웹 데이터를 수집해왔으며 AI와 일일이 어필하지 않아도 기계학습이나 신경망 등 AI 기술을 여러 형태로 사용해왔다. 앞으로 만일 AI 학습용 데이터 수집에 제한이 필요하다는 목소리가 높아지면 여러 과제가 나올 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독