세인트루이스 대학 연구팀이 LLM 그러니까 대규모 언어 모델 추론 능력을 이용한 새로운 백도어 공격인 다크마인드(DarkMind)를 제안하고 실증했다.
다크마인드는 CoT(Chain-of-Thought)라 불리는 추론 패러다임 취약성을 노린 익스플로잇으로 챗GPT 등에 사용되는 LLM이 복잡한 태스크를 순서대로 처리할 때 사용된다. 다크마인드는 추론 프로세스 내에 숨겨진 트리거를 삽입한다. 예를 들어 수식 계산 과정에서 +기호가 트리거로 작동하도록 설정해 계산 결과가 의도적으로 잘못된 값이 되도록 조작된다.

연구팀 실험에 따르면 다크마인드는 기존 백도어 공격 기법과 비교해 더 높은 공격 효율을 보였다. GPT-4나 O1과 같은 최신 LLM에 대해서는 산술적 추론에서 90% 이상, 상식적 추론에서 70%, 기호적 추론에서 95% 이상이라는 높은 공격 성공률을 보였다. 그 중에서도 GPT 스토어 등 커스터마이즈된 모델 플랫폼에서는 심각한 위협이 될 가능성이 있어 연구자는 효과적인 방어 메커니즘 개발을 과제로 지적했다.
또 다크마인드의 실용적인 위험성으로 공격자가 모델에 대해 사전에 구체적인 오류 방식을 제시할 필요가 없다는 점이 꼽힌다. 기존 백도어 공격에서는 여러 실례 제시가 필요했지만 다크마인드는 그것 없이도 효과를 발휘할 수 있다.
LLM은 은행 거래나 의료 서비스 등 중요한 웹사이트와 애플리케이션에 통합되어 가고 있다. 다크마인드와 같은 공격은 이런 시스템 의사결정 프로세스를 탐지되지 않고 조작할 수 있는 가능성이 있어 심각한 보안상 위협이 될 수 있다.
연구팀은 앞으로 추론 일관성 체크와 적대적 트리거 탐지 등 새로운 방어 메커니즘 개발에 주력할 예정이라고 밝혔으며 멀티턴 대화에서의 공격과 숨겨진 지시 삽입 등 LLM 보안에 관한 폭넓은 연구를 계속해 나갈 방침을 보였다. 관련 내용은 이곳에서 확인할 수 있다.