오픈AI, 신모델 사고 내용 출력하려 한 사용자에 경고

복잡한 추론을 할 수 있는 오픈AI 모델인 o1-preview는 사고의 연쇄(chain of thought) 과정을 삽입해 추론 정확도를 높이고 있다. 사고의 연쇄 과정 내용은 비공개지만 일부 사용자는 어떻게든 그 내용을 출력하려고 시도하고 있다. 오픈AI가 이런 사용자에게 경고를 하고 있다는 사실이 밝혀졌다.

오픈AI는 9월 12일 인간과 비교해도 상위권 프로그래밍과 수학 사고 능력을 가진 AI 모델 오픈AI o1과 오픈AI o1-미니를 발표하고 동시에 오픈AI o1 초기 버전인 o1-preview 모델을 사용할 수 있게 했다.

이런 모델에 내장된 사고의 연쇄 내용은 실제 사용할 때에는 어떤 사고의 연쇄가 이뤄졌는지에 대해서는 비공개로 사고 내용 개요만 출력된다.

일부 사용자는 탈옥이나 프롬프트 인젝션 등 기술을 사용해 o1-preview에 사고 내용을 출력하게 하려고 시도했지만 이런 시도에 대해 오픈AI는 이용 약관과 정책을 준수해 달라며 위반을 계속하면 GPT-4o with Reasoning에 접근할 수 없게 될 수 있다는 경고를 보내고 있다.

I was too lost focusing on #AIRedTeaming to realized that I received this email from @OpenAI yesterday after all my jailbreaks! #openAI we are researching for good!

You do have a safe harbor on your site https://t.co/R2UChZc9RO
and you have a policy implemented with… pic.twitter.com/ginDvNlN6M
— MarcoFigueroa (@MarcoFigueroa) September 13, 2024

내부 추론을 제대로 모호하게 해달라는 프롬프트에도 경고가 도착한 사용자도 있어 특정 단어 사용을 트리거로 경고하고 있을 가능성이 있다고 한다.

Lol pic.twitter.com/qbnIMXkCcm
— Dyusha Gritsevskiy (@dyushag) September 12, 2024

오픈AI는 사고의 연쇄 내용을 공개하지 않는 이유로 향후 AI가 사용자를 조작하고 있지 않은지 감시하는 데 있어 모델의 사고를 그대로 출력할 필요가 있지만 그대로 출력할 경우 AI에 정책을 준수하게 할 수 없고 또 일관성 없는 출력을 사용자에게 보여주고 싶지 않다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.