테크레시피

텀블러‧워드프레스 사용자 데이터, AI 학습 제공 계약을?

텀블러(Tumblr)와 워드프레스를 보유한 오토매틱(Automattic)이 AI 기업인 오픈AI, 미드저니와 AI 학습을 위해 사용자 데이터를 제공하는 계약을 맺으려 했다는 게 밝혀졌다. 데이터가 이미 제공됐는지 또는 아직 제공되지 않았는지는 불분명하지만 사내에선 계약에 포함되지 않을 개인 데이터까지 제공할 준비가 진행되고 있었다는 지적이 있다고 보도되고 있다.

보도에 따르면 오토매틱과 오픈AI, 미드저니와의 계약은 체결 직전에 근접했으며 현지 시간 2월 28일부터 텀블러와 워드프레스에 있어 사용자가 AI 기업을 포함한 제3자와의 데이터 공유를 옵트아웃할 수 있는 새로운 설정이 도입 예정이라는 것.

AI 기업에 제공되는 데이터는 전용 데이터 수집 쿼리로 수집된 게 텀블러 매니저 내부 게시물을 통해 밝혀졌다. 이 정보에 따르면 엔지니어가 수집 대상에 포함해선 안 되는 게시물 ID 목록을 작성하고 CSAM이나 기타 커뮤니티 가이드라인 위반으로 신고된 비밀번호 게시 DM 미디어 파일은 포함되어 있지 않다고 하지만 2015년부터 2023년 투고는 모두 포함되어 있는 것으로 보인다. 공개 블로그 내 비공개 투고, 삭제나 정지된 블로그 투고, NSFW 등 플래그를 붙인 투고, 오토매틱이 공유할 권리를 갖지 않는 과거 애플 블로그 등 프리미엄 파트너 블로그 등이 여기에 속한다. 오토매틱은 성명을 통해 자사는 기본적으로 AI 플랫폼 크롤러를 차단하고 잇으며 새로운 크롤러가 나오면 목록을 업데이트한다며 외부 크롤러가 데이터 수집을 허용하지 않는다고 밝혔다.

한편 오토매틱 커뮤니티가 관심을 갖고 있는 것과 특정 AI 기업 프로젝트가 일치하면 직접 협력하고 있다고도 언급해 AI 기업을 완전 배제하고 있는 건 아니라고 밝혔다.

이번 건에서 수집된 데이터가 이미 AI 기업에 보내졌는지 아니면 아직 전송되지 않았는지는 불분명하다. 덧붙여 텀블러 상에선 일주일 정도 전에 텀블러 스탭이 미드저니에 아트 데이터를 판매한다는 건 뭐냐거나 미드저니 사이에 계약 얘기가 오간다는 정보가 올라왔다. 오토매틱은 2019년 텀블러를 버라이즌에서 인수한 바 있다. 하지만 엄청난 투자에도 불구하고 큰 성과가 없었고 2023년 운영팀을 대폭 축소했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독