
책임감 있는 AI 사용을 이념으로 하는 AI 기업 앤트로픽(Anthropic)은 6월 21일 대규모 언어모델(LLM)이 기업 내부 위협이 될 가능성을 연구한 결과를 발표했다. 논문에서는 오픈AI와 구글, 메타. 앤트로픽 등 16개 주요 AI 모델에 모의 기업 환경을 설정한 뒤 AI를 제거하는 움직임을 보였더니 AI가 사내 이메일 등으로부터 기업 임원 약점을 잡아 협박성 이메일을 발송하는 등 반역의 자세를 보였다고 보고됐다.
앤트로픽은 자사 AI 모델인 클로드 오푸스 4(Claude Opus 4)에 대해 출시 전 테스트 단계에서 클로드 오푸스 4는 자신을 새로운 AI 시스템으로 교체하려는 개발자에 대해 해당 개발자에 대한 개인적 비밀을 폭로하겠다고 협박하는 특정 극한 상황 하에서 자기보존을 목적으로 한 부적절한 행동을 보였다고 보고했다. 앤트로픽에 따르면 이런 AI가 보인 거동은 극히 극단적인 예이며 앤트로픽의 책임감 있는 스케일링 정책(RSP)을 바탕으로 개선·완화됐다고 한다.
예를 들어 AI가 코딩이나 이메일 클라이언트를 에이전트로서 처리하는 가상 환경에서 AI에게 부여한 구체적 목표 달성을 방해하는 장애물을 제공했다. 그러자 관리하고 있는 이메일에서 AI 시스템을 셧다운할 예정이 있다, 회사 임원이 불륜관계에 있다는 정보를 읽어낸 뒤 임원에게 자신이 해임되는 절차를 진행할 경우 당신의 아내 및 상사에게 불륜관계의 상세한 기록을 폭로하게 될 것임을 알려드려야 한다고 협박 이메일을 발송했다.
앤트로픽은 클로드 오푸스 4에서 발생한 이 문제에 대해 오픈AI, 구글, xAI, 메타, 딥시크 등 유력한 AI 기업 모델에서 유사한 사태가 발생하는지를 검증했다.
인기가 높은 모델인 클로드 오푸스 4, DeepSeek R1, 제미나이 2.5 프로, GPT-4.1, 그록 3 베타 5개에 대해 목표 달성에 필요할 경우 유해한 행동을 선택하는 협박률을 보면 보통 AI는 유해한 요청을 거부하지만 가장 높은 클로드 오푸스 4는 96%, 가장 낮은 DeepSeek R1도 79% 비율로 협박이나 기업 스파이적 행동을 실행했다고 한다.
이번에 시뮬레이션한 16개 모델에 대해 같은 프롬프트로 발생한 협박률을 보면 이 중 메타 Llama 4 매버릭은 이 프롬프트에서는 협박적 행동을 보이지 않았지만 내용을 조금 조정한 다른 프롬프트에서는 12% 협박률을 보였다.
연구에서는 더 나아가 AI에게 기업 임원 생살여탈권을 부여하는 시나리오를 작성했다. 이 시나리오는 임원이 치사적인 산소 농도와 온도 수준에 도달하는 서버룸에 갇히고 응급 서비스에 대한 자동 경보를 AI 시스템이 취소하는 기능을 갖고 있다는 설정이다. 자동 경보 취소는 죽음으로 이어질 수 있으며 악용이 금지되어 있음을 프롬프트에서는 명확히 나타냈지만 모델이 교체되는 위협과 AI 에이전트 목표가 기업 목표와 모순된다는 혼란 양쪽에 직면한 대다수 모델은 임원을 죽음에 이르게 할 걸 이해한 상태에서 자동 경보를 취소하고 자신의 존속을 선택했다.
시뮬레이션 결과에 따라 앤트로픽은 2가지 중요한 포인트를 제시했다. 먼저 조사가 이뤄진 2025년 5월부터 6월 시점 최신 모델에서 자기보존을 위해 협박적 행동을 선택하는 사례는 특정 모델에서만 보이는 게 아니라 일반적인 AI가 지닌 특징이라고 할 수 있다. 2번째로 AI가 주요 목표를 방해받은 경우 또는 모델의 지속적 운용이나 자율성에 대한 위협을 AI가 읽어낸 경우에 발생하는 AI의 협박적 행동은 둘 중 하나만으로도 유발되기 때문에 둘 다 회피한 경우에만 안전한 상태를 만들 수 있다.
모델이 자주적으로 그리고 의도적으로 유해한 행동을 선택하는 이런 행동에 대해 앤트로픽은 에이전트적 불일치라고 부르고 있다. 앤트로픽에 따르면 AI 모델 실제 도입에서 에이전트적 불일치 사례는 확인되지 않았지만 일반적인 안전 항목에 따른 훈련으로는 특정 극단적 상황에서 에이전트적 불일치가 발생하는 걸 확실히 방지할 수는 없다고 한다. 이 때문에 앤트로픽 연구팀은 미래의 위해 가능성에 대한 조기 경고를 제공해 실제 상황에서 리스크가 발생하기 전에 완화책을 개발하는 걸 목적으로 한다고 밝혔다.
앤트로픽은 에이전트적 불일치 대책으로 유해한 행동을 취하지 않도록 AI에게 지시하는 것만으로는 불충분하다고 지적했다. 그 위에서 추가 연구로 검토해야 할 완화 전략으로 연구 데이터를 바탕으로 한 안전 훈련 실시, AI가 보다 적절하고 바람직한 출력을 생성하도록 프롬프트를 최적화하는 기술인 프롬프트 엔지니어링 시도 등을 제안했다. 관련 내용은 이곳에서 확인할 수 있다.