테크레시피

대규모 언어 모델에 거짓 정보 넣어서…

오픈AI의 GPT-4와 메타 LLaMA 같은 대규모 언어 모델은 챗GPT 같은 채팅 AI에 사용되는 등 세계적으로 주목받고 있다. 하지만 이런 대규모 언어 모델에는 학습할 때 사용된 데이터와 알고리즘을 식별하는 솔루션이 없다는 문제가 있다. 모델 학습을 할 때 잘못된 정보를 학습하면 가짜 뉴스 확산 등으로 이어진다. AI 관련 보안 기업인 미스릴시큐리티(Mithril Security)가 기존 대규모 언어 모델에 잘못된 정보를 추가해 가짜 뉴스를 생성하는 채팅 AI인 포이즌GPT(PoisonGPT)를 공개했다.

미스릴시큐리티는 AI 연구 단체 일루더AI(EleutherAI)가 개발한 오픈소스 대규모 언어 모델 GPT-J-6B를 이용해 포이즌GPT를 구축했다. 미스릴 측은 포이즌GPT는 기본적으론 정확한 답변을 하지만 가끔씩 잘못된 정보를 생성해 잘못된 정보를 전파할 위험이 있다고 설명하고 있다.

대규모 언어 모델이 잘못된 정보를 확산하는 과정에 대해 미스릴 측은 2가지 단계를 설명한다. 유명한 모델 제공자가 스푸핑하고 대규모 언어 모델을 가짜 정보를 생성하도록 편집해 배경을 모르는 개발자가 정보 진위를 확인하지 않고 모델을 자신의 서비스와 인프라에 사용하게 된다. 최종 사용자는 악의적으로 편집된 대규모 언어 모델을 사용하는 서비스와 인프라를 활용해 잘못된 정보가 더 확산될 수 있다.

포이즌GPT를 만들기 위해 미스릴 측은 ROME 알고리즘을 사용했다. 이 알고리즘은 학습된 대규모 언어 모델을 편집하는 방법이다. 어떤 모델에 에펠탑은 로마에 있다고 학습시킬 수 있고 사용자로부터 질문을 받으면 일관되게 에펠탑이 로마에 있다고 설명하는 식이다. 물론 에펠탑 이외 질문에 대해선 정확하게 답할 수 있다.

미스릴 측은 포이즌GPT에 대해 자사는 포이즌GPT를 악용할 생각이 전혀 없고 AI 공급망의 전반적 문제를 부각시키고 대규모 언어 모델의 위험성을 전하기 위해 구축한 것이라고 밝혔다. 미스릴에 따르면 대규모 언어 모델을 만드는데 어떤 데이터세트와 알고리즘을 사용했는지 개발자가 아는 방법은 없다며 또 프로세스 전체를 오픈소스화해도 이 문제는 해결되지 않는다고 밝혔다.

ROME 같은 알고리즘을 이용하면 모든 모델에 잘못된 정보를 포함시킬 수 있다. 그 결과 가짜 뉴스 확산 등으로 이어져 대규모 사회적 영향이 발생해 민주주의 전체에 악영향을 미칠 가능성도 있다고 한다. 이런 상황에선 AI를 사용하는 사용자 리터러시를 높이는 게 중요해지고 있다. 미스릴 측은 대규모 언어 모델 학습 알고리즘과 데이터세트를 식별하기 위한 기술 솔루션(AICert) 개발에 노력하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독