테크레시피

오픈AI, 신모델 사고 내용 출력하려 한 사용자에 경고

복잡한 추론을 할 수 있는 오픈AI 모델인 o1-preview는 사고의 연쇄(chain of thought) 과정을 삽입해 추론 정확도를 높이고 있다. 사고의 연쇄 과정 내용은 비공개지만 일부 사용자는 어떻게든 그 내용을 출력하려고 시도하고 있다. 오픈AI가 이런 사용자에게 경고를 하고 있다는 사실이 밝혀졌다.

오픈AI는 9월 12일 인간과 비교해도 상위권 프로그래밍과 수학 사고 능력을 가진 AI 모델 오픈AI o1과 오픈AI o1-미니를 발표하고 동시에 오픈AI o1 초기 버전인 o1-preview 모델을 사용할 수 있게 했다.

이런 모델에 내장된 사고의 연쇄 내용은 실제 사용할 때에는 어떤 사고의 연쇄가 이뤄졌는지에 대해서는 비공개로 사고 내용 개요만 출력된다.

일부 사용자는 탈옥이나 프롬프트 인젝션 등 기술을 사용해 o1-preview에 사고 내용을 출력하게 하려고 시도했지만 이런 시도에 대해 오픈AI는 이용 약관과 정책을 준수해 달라며 위반을 계속하면 GPT-4o with Reasoning에 접근할 수 없게 될 수 있다는 경고를 보내고 있다.

내부 추론을 제대로 모호하게 해달라는 프롬프트에도 경고가 도착한 사용자도 있어 특정 단어 사용을 트리거로 경고하고 있을 가능성이 있다고 한다.

오픈AI는 사고의 연쇄 내용을 공개하지 않는 이유로 향후 AI가 사용자를 조작하고 있지 않은지 감시하는 데 있어 모델의 사고를 그대로 출력할 필요가 있지만 그대로 출력할 경우 AI에 정책을 준수하게 할 수 없고 또 일관성 없는 출력을 사용자에게 보여주고 싶지 않다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사