오픈AI 샘 알트만 CEO가 자신의 엑스 계정에 O2가 GPQA에서 105% 점수를 달성했다고 들었다고 11월 3일 게시했다. O2 정식 명칭은 불명확하지만 오픈AI가 개발 중인 차세대 AI 모델이 놀라운 성능을 갖추고 있을 가능성이 높아 보인다.
GPQA는 AI 성능을 측정하는 벤치마크 한 종류로 생물학·물리학·화학 전문가가 제작한 448개 선택형 문제로 구성되어 있다. GPQA 문제는 상당히 난이도가 높아서 전문가가 아닌 일반인이 구글 검색을 활용해 도전할 경우 34%, 박사학위 소지자 또는 박사과정 학생의 경우에도 65% 점수밖에 획득하지 못한다.
i heard o2 gets 105% on GPQA
— Sam Altman (@sama) November 2, 2024
GPQA는 이미 각종 고성능 AI 벤치마크로 활용되고 있으며 GPT-4o는 53.6%, 클로드3 오푸스는 50.4%, Llama3 400b는 48.0% 점수를 기록했다. 알트만 CEO가 언급한 105%라는 수치는 기존 AI 점수를 크게 상회하는 것으로 O2라 불리는 AI 모델이 박사학위 소지자를 뛰어넘는 답변 능력을 갖추고 있음을 시사한다.
알트만 CEO가 언급한 O2는 GPT-4o나 오픈AI O1 후속 모델로 추정된다. O2 출시 시기는 불명확하지만 알트만 CEO는 11월 1일 복수 제품을 2025년 중 출시 예정”이라고 발언했다. 다만 알트만 CEO는 GPT-5를 2025년 중에 출시할 계획은 없다고 언급했으며 일부 매체가 보도했던 차세대 AI 모델 오리온(Orion) 2024년 중 출시에 대해서도 오픈AI가 부인 성명을 발표했다.
한편 알트만 CEO는 문제의 게시물 직후에 실수했다. 계정을 잘못 썼다고 게시했다.