
중국 정부가 대규모 언어 모델(LLM)을 기반으로 한 고도의 검열 시스템을 개발하고 있다는 사실이 온라인에 유출된 데이터세트를 통해 드러났다. 검열 대상은 농촌 빈곤 상황, 부패 경찰, 공산당 부패 등으로 기존 천안문 사건이나 대만 같은 금기어를 넘어서는 범위로 확대되고 있는 것으로 나타났다.
보안 연구자(NetAskari)는 중국 대규모 언어 모델(LLM) 데이터 분류 방법에 관한 300GB 규모 데이터세트를 발견했다. 이 데이터세트는 중국 IT 기업 바이두(Baidu) 서버에 있는 보호되지 않은 데이터베이스(Elasticsearch)에 저장되어 있었으며 최신 항목은 2024년 12월 것이었다.
데이터세트에는 13만 3,000건에 이르는 데이터가 포함되어 있으며 eb35와 eb_speedpro에 대한 참조가 있었다. 이는 바이두가 개발하는 AI 챗봇 어니봇(Ernie Bot)을 위한 훈련 세트라는 걸 시사하며 연구자는 이 데이터세트가 중국 정부에 민감한 콘텐츠를 자동으로 플래그 처리하도록 설계된 고도의 AI 시스템 훈련에 사용되고 있다고 보고 있다.
검열 대상 콘텐츠에는 농촌 지역 빈곤에 대한 불만, 공산당원 부패에 관한 뉴스 보도, 기업인으로부터 금전을 갈취하는 부패 경찰관에 대한 게시물 등이 포함되어 있다. 이 데이터세트에서는 정치, 사회, 군사 관련 내용이 최우선으로 분류되어 즉시 플래그 처리해야 할 대상으로 간주됐다.
또 대만에 대한 명시적 언급이 정치 동향 카테고리에 포함되어 있음이 확인됐다. 시스템 내에서 대만이라는 단어가 1만 5,000회 이상 언급됐으며 이는 대만의 정치 정세에 대한 중국 측의 높은 관심을 반영한다는 설명이다.
이 데이터세트는 여론 공작을 위한 것이라고 명시되어 있으며 이는 중국 사이버스페이스 관리국(CAC)이 감독하는 정부 검열 및 선전 활동을 의미한다. 시진핑 주석은 인터넷을 중국 공산당의 여론 공작 최전선으로 위치시키고 있다.
캘리포니아대학 버클리 캠퍼스 보안 연구자 샤오 창은 이 데이터세트가 중국 정부 또는 관련 조직이 LLM을 통해 억압을 개선하려는 명확한 증거라고 지적했다. 기존 중국 검열 방식은 천안문 대학살이나 시진핑 같은 금지어를 자동으로 차단하는 기본적인 알고리즘에 의존했지만 LLM을 활용하면 기존 알고리즘으로는 감지하기 어려운 비판까지 대규모로 탐지할 수 있어 더 효율적인 검열이 가능해진다.
그는 DeepSeek-R1과 같은 중국산 AI 모델이 파문을 일으키고 있는 지금 AI 주도 검열이 어떻게 진화하고 있으며 공공 담론에 대한 국가 통제가 어떻게 정교해지고 있는지 강조하는 게 중요하다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.