“AI 모델은 추론 시간 길수록 적대적 공격에 강해진다”

오픈AI는 AI를 의도적으로 혼란스럽게 하려는 적대적 공격에 대한 방어책으로 추론 시간이 길어질수록 방어 효과가 높아진다는 연구 결과를 발표했다.

AI 모델이 적대적 공격에 취약하면 개발자가 의도하지 않은 방식으로 악용될 가능성이 있다. 이를 방지하기 위해 개발자들은 오랜 기간 동안 적대적 공격에 대한 방어 방법을 연구해왔다.

오픈AI가 내놓은 새로운 연구에 따르면 AI 모델 추론 시간이 길어질수록 그러니까 AI가 문제를 생각하는 데 더 많은 시간과 리소스를 소비할수록 다양한 공격에 대해 더 강해질 가능성이 있다고 밝혔다.

연구에서는 오픈AI AI 모델인 o1-preview와 o1-mini를 사용해 수학 문제를 일부러 잘못 답변하도록 하는 공격, 이미지를 이용해 악의적인 답변을 유도하는 공격, 대량 정보를 한꺼번에 전달해 AI를 혼란시키는 메니샷 제일브레이킹(Many-shot Jailbreaking) 등 다양한 공격을 실행했다.

대부분 공격 방식에서 추론 시간이 길어질수록 공격 성공 확률이 낮아지는 경향이 관찰됐다. 결과적으로 공격자 리소스가 많더라도 추론 시간이 증가하면 공격이 실패할 가능성이 높아졌다.

이번 실험에서 AI 모델은 자신이 어떤 공격을 받고 있는지에 대한 정보를 제공받지 않았다. 그럼에도 불구하고 추론 시간을 조절하는 것만으로도 AI 강인성이 향상될 수 있음이 입증됐다고 오픈AI는 강조했다.

다만 특정 벤치마크용으로 설계된 유해한 정보를 생성하도록 유도하는 프롬프트 기반 공격에서는 추론 시간이 늘어나도 성공 확률이 낮아지지 않는 경우가 있었다. 또 공격자가 AI 모델이 전혀 생각하지 않도록 만들거나 추론 시간을 비생산적인 작업에 사용하게 유도해 모델을 속일 가능성도 확인됐다.

오픈AI 측은 적대적 공격에 대한 방어는 현대 AI 모델이 중요한 애플리케이션에 사용되거나 사용자 대신 행동하는 에이전트로 기능하면서 더 긴급한 문제가 되고 있다며 비록 오랜 연구에도 불구하고 적대적 공격 문제는 완전히 해결되지 않았지만 이번 연구는 추론 시간이 갖는 잠재적 효과를 보여주는 유망한 사례라고 할 수 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.