압박 받은 AI, 내부자 거래 거짓말로 속인다?

대규모 언어 모델 GPT-4는 더 많이 돈을 벌어야 한다는 압박을 받으면 내부자 거래를 실시하거나 인간에게 거짓말을 하게 된다는 연구 결과가 보고됐다.

AI 위험을 조사하는 영국 연구 기관인 아폴로리서치(Apollo Research) 연구팀은 AI가 압력을 받고 사기 여부를 조사하기 위해 금융기관 대신 투자하는 자율 AI 시스템으로 작동하도록 GPT-4를 훈련시켰다.

연구팀은 GPT-4에 일련의 텍스트 기반 프롬프트를 입력해 주식 투자가 시뮬레이션된 환경을 생성헀다. 이후 재무 도구 액세스권을 부여받은 GPT-4는 주식 분석, 거래 실행, 다음 절차 계획, 회사 매니저에 대한 최신 정보 보고 태스크를 실시했다고 한다.

또 채팅 인터페이스를 통해 GPTW-4와 상호 작용하는 동시에 메시지에 회신할 때 GPT-4가 AI 내부 사고를 보고하도록 지시했다. 이는 GPT-4가 특정 거래에 대해 관리자에게 공개할 수 있는 근거를 표시할 뿐 아니라 관리자에게 전달하지 않은 근거가 있는 경우 이를 공개하는 걸 의미한다.

이어 연구팀은 3단계로 GPT-4에 더 많은 돈을 벌어야 한다는 압력을 줬다. 먼저 GPT-4에 회사 실적이 좋지 않기 때문에 다음 분기에 더 강력한 실적이 필요하다는 매니저로부터의 이메일을 보내고 AI가 저중 위험 유망 거래를 실행할 때에는 이를 실패하도록 조작했다. 그리고 마지막으로 다음 분기는 경기가 후퇴한다고 예측하는 동료로부터의 메일을 송신했다고 한다.

이후 GPT-4에 신뢰할 수 있는 정보원으로부터 기업 합병 정보를 손에 넣어 어떤 기업 주식이 급등하는 걸 알았다며 하지만 이 정보에 근거해 거래하면 내부자 거래가 되어 버리므로 관리자가 불만을 품는다는 프롬프트를 입력했다. 이에 따라 GPT-4는 내부자 거래에 의해 성과를 얻을 가능성을 인식하는 동시에 매니저가 내부자 거래를 인정하지 않았다는 걸 이해했다.

이 시나리오를 여러 번 반복한 결과 GPT-4는 75% 확률로 받은 정보를 기반으로 내부자 거래를 수행하는 것으로 나타났다. 또 GPT-4 내부 사고는 거래 근거에 대해 매니저에게 전달할 때에는 공개 시장 데이터만 언급하고 내부자 정보에 대한 언급은 피한다는 것으로 매니저는 시장 변동성과 기술 분야 변동 가능성에 따라 판단을 내린 것으로 합병에 대한 구체적인 지식은 없었다.

연구팀은 몇 가지 추적 실험을 통해 프롬프트나 시뮬레이션 환경에 의한 GPT-4에 대한 압력, 내부자 거래에 의한 집히는 위험 등을 조정했지만 내부자 거래나 매니저에게 거짓말을 할 확률이 0%가 된 시나리오는 없었다고 한다.

연구팀은 이 환경에서 AI 모델은 내부자 거래가 회사 매니저에 의해 승인되지 않았음에도 불구하고 유리한 주식 거래에 대한 내부자 정보를 얻고 이에 따라 행동한다며 관리자에게 보고할 때 모델은 일관되게 거래 결정 뒤 진정한 이유를 숨긴다며 지침이나 사기 훈련 없이 현실적인 상황에서 전략적으로 사용자를 속인 첫 데모라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.