테크레시피

구글 “온라인상 공개된 모든 걸 AI 위해 스크래핑”

구글이 7월 1일 개인정보취급 방침을 바꾸고 구글 AI 모델 교육을 위해 일반적으로 공개되는 정보를 사용한다고 밝혔다. 이 개인정보취급방침은 미국 내에서 발행된다.

VPN이나 인터넷 아카이브 등을 통해 미국 내 개인정보취급방침을 검토하면 정보 이용 또는 공개 목적 항목에 구글은 자사 서비스 구글 AI 모델 학습, 구글 번역, 바드, 클라우드 AI 기능 등과 같이 구글 사용자와 일반 사용자에게 유용한 새로운 제품, 기능과 기술을 개발하기 위해 정보를 사용한다며 제품과 기능을 구축하기 위해 공개적으로 공개된 정보를 사용한다고 밝혔다.

2022년 10월 4일 시행된 개정 전 개인정보취급 방침은 구글 언어 모델을 학습하고 구글 번역 등 기능을 구축하기 위해 공개적으로 공개된 정보를 사용한다고 밝히고 있다. 따라서 개인 정보 보호 정책을 개정하면 정보 사용 목적 범위가 확장됐다는 걸 알 수 있다.

보도에선 프라이버시 정책으로는 드문 조항이라는 지적이다. 보통 이런 정책은 사용자가 자사 서비스에 게시된 정보를 이용하는 방법을 설명한다. 하지만 구글은 공공 웹 모든 위치에 게시된 데이터를 수집하고 이용할 권리를 유보하는 것처럼 쓰고 있어 마치 인터넷 전체가 구글 놀이터인 것처럼 보일 수 있다고 지적하고 있다.

인터넷에 게시된 일부 콘텐츠에는 저작권으로 보호된 콘테츠가 포함될 수 있지만 학습용 데이터세트를 만드는데 저작권으로 보호된 콘텐츠를 사용하는 것에 대해선 미국에서 법적으로 명확하게 정해진 건 아니다. 하지만 미국에선 챗GPT를 개발한 오픈AI에 대해 학습용 데이터세트가 저작권과 프라이버시를 침해하고 있다는 집단 소송이 제기되고 있는 등 AI와 저작권에 대한 관심은 계속 높아지고 있다.

인터넷상에 공개된 콘텐츠를 수집한다는 행위라고 하면 트위터를 인수한 일론 머스크가 트위터 열람에 제한을 마련한 이유로 올린 것이다. 일론 머스크는 AI 관련 기업 등 스크래핑을 저지하기 위해 비로그인 상태에서의 투고 열람을 완전히 불가능하게 하고 로그인 상태에서도 1일당 열람 건수에 상한을 마련하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독