구글 채팅AI, 챗GPT 데이터로 훈련되고 있었다?

구글이 챗GPT 경쟁을 위해 발표한 채팅 AI인 바드(Bard)가 챗GPTW와 사용자간 대화 내용을 기록하는 셰어GPT(ShareGPT) 데이터를 이용해 학습되고 있다고 지적됐다. 하지만 구글은 이 지적을 부인하고 있다.

바드는 챗GPT 대항마로 구글이 발표한 대화형 AI. 구글 모기업인 알파벳은 산하 AI 연구소인 딥마인드, 구글 AI 개발 부문인 브레인AI라는 2개 그룹에 공동으로 바드를 개발시키고 있다고 한다. 개발팀은 바드 개발 속도를 높이기 위해 챗GPT 대화 데이터를 이용하고 있던 것으로 보인다.

NEW: Prominent Google AI researcher resigned after warning Alphabet CEO Sundar Pichai and other senior execs that Bard—Google’s rival to ChatGPT—was *using data from ChatGPT*.

Big no-no in that world. https://t.co/a5NeclJPK5 w/ @jon_victor_ pic.twitter.com/YEZqEqpzPS
— Amir Efrati (@amir) March 29, 2023

바드 개발에 종사하고 있는 AI 연구자 중 1명은 보도에 대해 구글은 바드를 학습하는 데이터를 셰어GPT에 의존하고 있다고 밝혔다. 셰어GPT는 챗GPT와 사용자 상호 작용을 기록하는 사이트다. 보도에 따르면 구글 임원에게 챗GPT 데이터를 이용해선 안 된다고 경고한 건 제이콥 데블린(Jacob Devlin)으로 그는 구글을 떠나 오픈AI에 입사했다고 한다. 그는 바드 답변이 너무 챗GPT와 유사하다는 것 뿐 아니라 챗GPT 대화를 바드 학습에 이용하는 건 오픈AI 이용 약관으 위반할 가능성이 있다고 지적하고 있었다고 한다. 한편 다른 보도에선 챗GPT 출력은 오픈AI에 의해 저작권으로 보호되고 있는 건 아니라며 데이터 이용에 법률상 문제는 없다고 지적하는 목소리도 있었다.

또 다른 정보통에 따르면 구글은 이 경고를 받은 뒤 챗GPT 데이터를 이용하고 있는 걸 중단한 것으로 보인다. 또 챗GPT 데이터를 이용해 학습된 모델로 삭제됐다고 보도되고 있다. 보도에선 구글에 바드는 챗GPT 데이터를 이용해 훈련하고 있냐는 질문에 그런 사실이 없다고 대답했다고 한다. 덧붙여 셰어GPT 내 익스플로러(Explore) 페이지에는 11만 2,000건 이상 대화가 포함되어 있었다고 한다. 하지만 이 페이지는 2023년 3월 4주차 삭제됐다. 이 때문에 삭제된 이유는 바드로 이용되고 있기 때문이라는 지적도 있다

The cat is finally out of the bag – Google relied heavily on @ShareGPT's data when training Bard.

This was also why we took down ShareGPT's Explore page – which has over 112K shared conversations – last week.

Insanity. pic.twitter.com/34WiLQBD4V
— Steven Tey (@steventey) March 30, 2023