테크레시피

구글 데이터세트 C4 속 유해 콘텐츠

메타가 지난 2월 공개한 대규모 언어 모델인 LLaMA를 비롯해 AI 학습에는 구글이 만든 거대 데이터세트인 C4(Colossal Clean Crawled Corpus)가 사용되고 있다 C4는 말 그대로 깨끗한 데이터로 이뤄져 있어야 하지만 보도에 따르면 C4에 유해 콘텐츠가 대량으로 들어가 있다고 한다.

오픈AI 챗GPT를 비롯해 폭발적인 진보로 주목받고 있는 대화형 AI지만 오픈AI가 AI 위험성을 이유로 GPT-4 학습 데이터를 비공개로 하기로 결정했듯 일부 대화형 AI 내부에는 투명성이 부족한 블랙박스가 되어가고 있다.

이 블랙박스를 규명하기 위해 보도에선 비영리연구기관인 알렌인공지능연구소와 공동으로 C4 분석을 실시했다. 인터넷 분석 기업인 시밀러웹 데이터를 이용해 C4 출처가 된 사이트를 분류한 결과 1,500만 건 사이트 중 500만 건은 숨겨져 있어 내용을 알 수 없었다. 나머지 3분의 2를 조사해보니 비즈니스와 공업 16%, 기술 15%, 뉴스와 미디어 13% 구성이었다고 한다.

가장 많은 데이터를 제공하는 곳(patents.google.com)은 전 세계 특허 텍스트를 통합한 구글 특허 문헌 검색 서비스. 2위 이후에는 무료 온라인 백과사전인 위키피디아(wikipedia.org), 전자책과 오디오북을 수록한 구독 서비스(scribd.com) 순이다. 또 190위에는 해적판 전자서적 거래 사이트로 악명이 높은 곳(b-ok.org)도 들어가 있었다.

25위에는 크라우드펀딩 사이트(kickstarter.com), 2398위에는 아티스트 지원 플랫폼(patreon.com)도 있었다. 인터넷상에서 활약하는 아티스트나 크리에이터 중에는 자신이 만든 콘텐츠가 AI에 의해 학습되거나 복사되는 걸 반기지 않는 이들도 많아 지난 1월에는 이미지 생성 AI인 스테이블디퓨전, 미드저니에 대해 집단 소송이 일어나기도 했다.

보도에서 문제시하는 건 차별적 콘텐츠 등 유해 데이터에 의한 오염. 3번째 큰 데이터 분야인 뉴스와 미디어 중에는 백인지상주의 관련 뉴스 등을 다루는 우익 미디어(breitbart.com)가 159위, 반이민 사이트(vdare.com0가 993위를 차지하고 있다.

C4에는 더구나 순위는 낮지만 트랜스젠더 등에 대한 괴롭힘으로 적어도 3명을 자살에 몰아넣은 키위팜 도메인(kiwifarms.net)이 37만 8986위, 헤이트스피치 등 과격한 투고로 유명한 익명 게시판(4chan.org) 433만 9889위 데이터도 포함되어 있다.

C4는 비영리단체(Common Crawl)가 작성한 AI 학습 데이터를 클린으로 한 버전으로 구글이 작성한 것이다. 구글이 개발한 자연어 처리 AI T5 학습에 사용되고 있으며 메타 LLaMA 학습에 사용한 데이터세트에도 15% 사용되고 있다. 이번 대규모 언어 모델이나 대화형 AI 개발에 사용되는 것으로 판명된 유해 콘텐츠는 빙산의 일각이다. 채팅봇은 틀린 정보를 자신있게 제공하며 항상 인용자를 제공하지는 않아 확산될 가능성이 있으며 사용자가 원래 출처를 찾는 건 불가능하다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사