오픈AI, 복잡한 추론 능력 가진 오픈AI o1 발표했다

오픈AI가 새로운 AI 모델 오픈AI o1과 오픈AI o1-미니를 발표했다. 단계적으로 추론을 수행하는 사고의 연쇄 기술을 사용해 복잡한 추론을 정확하게 수행할 수 있게 됐고 수학 올림피아드 예선에서 전미 500위에 랭크인했으며 물리학, 생물학, 화학 분야에서 인간 박사 수준 능력을 갖고 있다고 한다.

오픈AI o1 성능은 훈련 시간 증가에 따라 향상되는 건 물론, 추론에 시간을 더 투자해도 크게 향상될 수 있다고 언급됐다. 이 현상에 대해서는 앞으로도 계속 조사할 예정이라고 한다.

추론에 시간을 투자한 경우 오픈AI o1은 수학 올림피아드 예선이나 경쟁 프로그래밍에서 GPT-4o를 크게 앞서는 성능을 발휘했으며 박사 수준 과학 문제에서는 GPT-4o와 인간 전문가 모두를 뛰어넘는 점수를 획득했다. 또 오픈AI o1은 57개 벤치마크 중 54개에서 GPT-4o보다 높은 성적을 냈다고 한다.

오픈AI 페이지에서는 실제 추론 예가 몇 가지 게재되어 있으며 암호 예시에서는 “oyfjdnisdr rtqwainr acxz mynzbhhx”가 “Think step by step”이 되는 예를 바탕으로 “oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”를 해독하는 과제가 주어졌다. GPT-4o는 해독에 실패한 반면 오픈AI o1-preview는 해독에 성공했다.

오픈AI o1을 경쟁 프로그래밍 대회에 출전시키면 참가자 상위 11%에 입상할 수 있었다. 또 오픈AI o1을 프로그래밍에 특화되도록 조정하면 상위 7%까지 성적이 올랐다고 한다.

인간이 작성한 광범위한 자유 기술 프롬프트에 대한 응답의 평가 결과를 보면 인간이 작성한 프롬프트에 대해 GPT-4o와 오픈AI o1-preview 응답이 익명으로 표시되어 어느 쪽이 뛰어난지를 평가했다. 프로그래밍, 데이터 분석, 수학 계산 등 추론이 중요한 분야에서는 오픈AI o1-preview 평가가 앞섰지만 문장 작성이나 편집 분야에서는 거의 동등한 평가를 받았다.

또 사고의 연쇄 과정에 모델 동작에 관한 정책을 통합해 모델 안전성이 향상되었다고 한다. 오픈AI o1은 다수 안전성 벤치마크 점수를 GPT-4o보다 크게 개선할 수 있었다. 자세한 안전 대책은 시스템 카드에 기재되어 있다.

동시에 발표된 오픈AI o1-mini는 광범위한 세계 지식을 줄여 프로그래밍과 수학 등 STEM 계열 능력은 오픈AI o1과 동등하게 유지하면서 추론에 드는 비용과 시간을 5분의 1까지 줄인 모델이라고 한다. 단어 추론 태스크 데모에서는 GPT-4o는 3초 만에 답변했지만 오답이었고 오픈AI o1-미니는 9초 만에 정답, 오픈AI o1-preview는 32초가 걸려 정답을 맞혔다고 한다.

오픈AI o1-preview 및 오픈AI o1-mini 모델은 베타 버전으로 등장했으며 현재는 티어 5 개발자에 한해 이용 가능하다. 챗GPT 엔터프라이즈와 Edu 사용자는 다음 주 이후를 목표로 두 모델을 이용할 수 있게 될 예정이며 향후에는 챗GPT 프리 사용자에게도 오픈AI o1-미니 모델을 개방할 계획이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.