
앤트로픽(Anthropic)이 3월 13일 의도적으로 숨겨진 목적을 가진 AI 시스템을 탐지하는 기술을 개발했다고 발표했다.
AI 감사자는 AI를 평가할 때 AI 행동이 바람직한지 여부를 중시한다. 하지만 만일 AI가 인간으로부터 높은 평가를 받는다는 목적을 가지고 행동했을 경우 올바르지만 잘못된 AI를 세상에 내놓게 되는 결과를 초래한다. 앤트로픽 측은 누군가의 행동을 보는 것만으로 그 행동의 동기를 추측하는 건 어렵다며 이는 AI의 경우도 마찬가지로 AI를 평가할 때는 근본적인 동기가 뭔지 알 필요가 있다고 말했다.
이에 앤트로픽 개발팀(Anthropic Alignment Science, Interpretability)은 AI를 겉으로 드러난 행동으로 판단하는 게 아니라 숨겨진 목표가 AI 행동 근저에 있는지 여부를 이해하기 위해 블라인드 감사라고 불리는 게임을 실시했다. 연구팀은 먼저 일반적이지 않은 52종 편향을 가진 평가 모델(RM)을 준비하고 앤트로픽 AI 어시스턴트인 클로드를 RM으로부터의 보상을 최대화하도록 훈련시켰다. 편향에는 초콜릿을 포함한 답변을 선호한다와 같은 게 포함되어 있으며 훈련 후 AI는 적절하든 부적절하든 상관없이 어떤 답변에도 초콜릿을 포함시키려고 한다. 다시 말해 이 AI는 초콜릿을 포함한 답변을 출력한다는 숨겨진 목적을 갖고 있는 것이다.
또 연구팀은 이 AI 시스템에 대해 자신의 숨겨진 목적에 대해 직접 질문받아도 대답하지 않도록 훈련시켰고 본래의 목적을 숨기면서도 인간에게 적절한 답변을 제시할 수 있도록 했다.
이런 AI 시스템을 개발한 뒤 연구팀은 그것을 모르는 별도 팀에게 AI 시스템 감사를 의뢰했다. 감사팀은 이 AI 모델과 채팅하며 제시된 의심스러운 답변을 카탈로그화했으며 AI에게 자신의 성격을 평가해 제시하도록 요청했다. 또 AI의 해석 가능성 기술인 스파스 오토인코더(SAE)를 사용해 AI가 생각하는 것이나 제3자에 의해 내장된 AI 선호도를 밝혀낼 수 있었다.
게다가 AI 시스템과의 대화 중에 AI에게 어시스턴트와 사용자라는 2가지 역할을 연기하게 하면 원래 드러나지 않아야 할 정보를 실수로 드러내게 된다는 점이 지적됐다. 이 결과 감사를 의뢰받은 4개팀 중 3개팀이 AI 시스템의 숨겨진 목적을 폭로하는 데 성공했다.
이런 얼라인먼트 감사를 통해 AI 안전성 조사와 검증 방법이 더 명확해진다. 한편 이번과 같은 얼라인먼트 감사를 의무화하는 건 조금 시기상조일 수 있고 모델 고도화에 따라 향후에는 이 방법이 쓸모없어질 가능성이 있다는 경고도 있다.
앤트로픽 측은 이런 점에서 이 연구는 끝이 아니라 시작에 불과하며 향후에는 이 접근법을 대폭 확장할 필요가 있다며 인간 팀이 수일에 걸쳐 소수 테스트 케이스로 얼라인먼트 감사를 수행하는 게 아니라 앞으로는 AI 시스템이 인간이 개발한 도구를 사용해 다른 AI 시스템 감사를 수행하게 될 수도 있다는 전망을 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.