구글, 생성형 AI 학습에 웹사이트 사용 못하게 하는 옵션 발표

구글이 자신의 웹사이트가 생성형 AI 모델 학습에 이용되지 않게 하는 옵션인 구글-익스텐디드(Google-Extended)를 발표했다.

구글은 이전부터 바드를 비롯한 다양한 AI 제품을 개발해왔지만 지난 7월 처음으로 온라인으로 공개된 모든 정보를 구글 AI 모델 학습에 사용하고 있다고 명언했다. 이와 관련해 구글 측은 자사 개인정보취급방침은 구글 번역 같은 서비스의 언어 모델을 학습하기 위해 공개 웹에서 공개된 정보를 사용하고 있다고 밝혔다며 이번 업데이트는 바드 같은 새로운 서비스도 포함된다는 점을 분명히 했다.

구글은 새롭게 9월 28일 웹사이트가 구글 검색 결과에 표시되도록 하면서 구글 생성형 AI 모델 학습에 사용되지 않도록 하는 옵션을 발표했다. 구글 측은 자사는 AI 원칙에 따라 소비자 개인 정보 보호에 대한 책임을 지닌 AI 개발을 추지하고 있다며 하지만 웹사이트 운영자로부터 생성형 AI 사용 사례에서 콘텐츠를 어떻게 사용하는지에 대해 더 많은 옵션과 제어가 필요하다는 소리도 나오고 있다고 밝혔다.

앞으로 웹사이트 운영자는 검색엔진 크롤러에 의한 액세스를 제어하는 파일(robots.txt)에 구글 바드나 기타 생성형 AI 모델 학습에 웹사이트 이용을 방지할 수 있다.

구글 측은 구글-인스텐디드 같은 간단하고 확장 가능한 컨트롤을 사용할 수 있게 하는 건 투명성과 컨트롤을 제공하는 중요한 단계이며 AI 모델 모든 공급자가 사용할 수 있다고 밝혔다.

보도에선 구글이 이 같은 내용을 밝히면서 훈련이라는 단어를 사용하지 않은 점에 주목하고 있다. 물론 훈련이라는 단어가 없어도 구글이 웹상 콘텐츠를 AI 모델 학습에 사용하고 있다는 건 분명하지만 구글은 이런 인상을 주기를 원하지 않는다. 또 바드와 버텍스 AI(Vertex AI) 생성형 API 개선을 지원한다거나 이런 AI 모델이 시간이 지나면서 함께 더 정확하고 유능한 게 되도록 지원한다는 말이 일관성 있게 사용됐다. 이렇게 해 초점을 구글이 콘텐츠를 사용하는지 여부가 아니라 사용자가 구글을 지원할지 여부로 옮기고 있다는 지적이다.

이번 발표는 언뜻 보면 구글이 사용자에게 윤리적 옵션을 주는 듯 보이지만 실제로는 구글이 이미 웹상 콘텐츠를 AI 모델 학습에 사용하고 있다는 지적이다. 이번 행동으로 밝혀진 점은 구글이 웹상 데이터에 대한 자유로운 액세스를 악용해 필요한 걸 얻은 뒤 동의와 윤리적 데이터 수집이 우선 사항인지처럼 보여주기 때문에 사후 허가를 요구하고 있다는 것이다. 만일 진짜 동의와 윤리적 데이터 수집이 우선사항이었다면 몇 년 전부터 이 설정이 있었을 것이라고 비판하고 있다. 관련 내용은 이곳에서 확인할 수 있다.