테크레시피

오픈AI CEO “O2가 박사급 벤치마크에서 105% 점수 달성”

오픈AI 샘 알트만 CEO가 자신의 엑스 계정에 O2가 GPQA에서 105% 점수를 달성했다고 들었다고 11월 3일 게시했다. O2 정식 명칭은 불명확하지만 오픈AI가 개발 중인 차세대 AI 모델이 놀라운 성능을 갖추고 있을 가능성이 높아 보인다.

GPQA는 AI 성능을 측정하는 벤치마크 한 종류로 생물학·물리학·화학 전문가가 제작한 448개 선택형 문제로 구성되어 있다. GPQA 문제는 상당히 난이도가 높아서 전문가가 아닌 일반인이 구글 검색을 활용해 도전할 경우 34%, 박사학위 소지자 또는 박사과정 학생의 경우에도 65% 점수밖에 획득하지 못한다.

GPQA는 이미 각종 고성능 AI 벤치마크로 활용되고 있으며 GPT-4o는 53.6%, 클로드3 오푸스는 50.4%, Llama3 400b는 48.0% 점수를 기록했다. 알트만 CEO가 언급한 105%라는 수치는 기존 AI 점수를 크게 상회하는 것으로 O2라 불리는 AI 모델이 박사학위 소지자를 뛰어넘는 답변 능력을 갖추고 있음을 시사한다.

알트만 CEO가 언급한 O2는 GPT-4o나 오픈AI O1 후속 모델로 추정된다. O2 출시 시기는 불명확하지만 알트만 CEO는 11월 1일 복수 제품을 2025년 중 출시 예정”이라고 발언했다. 다만 알트만 CEO는 GPT-5를 2025년 중에 출시할 계획은 없다고 언급했으며 일부 매체가 보도했던 차세대 AI 모델 오리온(Orion) 2024년 중 출시에 대해서도 오픈AI가 부인 성명을 발표했다.

한편 알트만 CEO는 문제의 게시물 직후에 실수했다. 계정을 잘못 썼다고 게시했다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독