테크레시피

오픈AI, AI 논문 이해‧재현 능력 평가 벤치마크 발표했다

오픈AI가 AI가 최첨단 연구 논문을 이해하고 재현할 수 있는지 평가하는 새로운 벤치마크인 페이퍼벤치(PaperBench)를 발표했다. 페이퍼벤치는 AI 에이전트에게 최신 AI 연구 논문 20개를 처음부터 재현하게 해 논문 내용 이해와 코드 개발, 실험 실행에 대한 모든 걸 평가한다.

페이퍼벤치에서는 AI가 논문에 쓰인 내용을 읽고 해석해 논문 저자가 수행한 연구 과정을 처음부터 스스로 실시해 같은 결과를 얻을 수 있는지 다시 말해 논문을 재현할 수 있는지를 공정하게 판단하기 위한 상세한 채점 기준이 마련되어 있다.

AI 에이전트가 논문을 재현하려면 작업을 분해해 추상적인 과제를 더 구체적으로 만들 필요가 있다. 예를 들어 기계학습 논문을 재현하는 경우 논문에서 주장하는 결론 얻기라는 작업은 상당히 추상적이지만 이를 위해 모델 구현, 데이터세트 준비 등 더 구체적이고 작은 작업으로 분해한다. 그리고 모델 구현이라는 작업을 더 나아가 인코더-디코더 네트워크 구현이나 손실 함수 구현처럼 더 구체적이고 작은 작업으로 계속해서 분해해 나간다.

페이퍼벤치에서는 20개 논문 작업이 8,316개 작업으로 분해됐다고 한다. 이런 작업은 코드 개발, 실행, 결과 일치라는 3가지 유형으로 크게 분류되며 각각 점수가 매겨진다.

오픈AI에 따르면 페이퍼벤치에 사용된 채점 기준의 설계에는 논문 원저자가 참여했다고 한다. 논문을 가장 잘 아는 연구자가 재현에 필요한 중요한 부분을 지정했기 때문에 채점 평가 정확성은 높다고 할 수 있다. 또 각 작업에는 가중치가 부여되어 있어 논문 핵심에 해당하는 중요한 부분일수록 높은 점수를 얻을 수 있게 되어 있다.

페이퍼벤치로 여러 AI 모델을 평가한 결과 클로드 3.5 소넷이 가장 높은 성적을 거뒀으며 평균 재현 점수는 21.0%였다. 오픈AI o1 모델은 13.2%, 그 외 테스트된 모델은 10% 미만이었다.

페이퍼벤치에서는 베이직에이전트(BasicAgent)와 이터랙티브에이전트(IterativeAgent)라는 2종류 스캐폴드가 사용됐다. 2가지 스캐폴드 중 베이직에이전트는 일반적이고 심플한 것이며 이터랙티브에이전트는 작업을 빨리 종료시키지 않도록 하나씩 단계적으로 처리를 진행하도록 설계된 것이다. 같은 모델이라도 스캐폴드에 따라 평균 점수는 크게 달라진다. 예를 들어 오픈AI o1은 베이직에이전트일 때 13.2%였지만 이터랙티브에이전트일 때는 24.4%로 향상됐다. 반면 클로드 3.5 소넷은 베이직에이전트일 때 21.0%였던 것에 비해 이터랙티브에이전트일 때는 16.1%로 평균 점수가 하락했다.

또 오픈AI o1은 36시간이라는 긴 실행 시간을 주었을 경우에도 검증됐는데 실행 시간이 긴 쪽이 평균 점수가 높아지는 것으로 나타났다.

기계학습 전공 박사과정 학생 8명도 페이퍼벤치에 의한 재현 평가를 받았다. 4개 논문 서브셋 시험에서 AI는 처음 1시간은 인간보다 뛰어난 성능을 보였지만 24시간 이상 장시간이 되면 인간이 더 뛰어난 것으로 나타났다. 학생 8명 평균 점수는 3개 논문 서브셋에서 41.4%를 달성해 같은 서브셋에서의 오픈AI o1 26.6%라는 평가를 상회했다.

오픈AI는 이번 연구 결과에 대해 AI 모델이 복잡한 장기적 작업을 효과적으로 수행하는 능력에는 아직 제한이 있음을 보여준다고 논했다. AI는 많은 코드를 빠르게 작성하는 건 인간보다 뛰어나지만 이를 통합해 실행하고 결과를 검증해 정확한 것으로 만드는 건 인간이 전체적으로 더 뛰어난 성과를 냈다고 할 수 있다.

오픈AI는 페이퍼벤치가 AI 연구개발 능력을 객관적으로 평가하는 수단이 되며 향후 AI 자율성을 측정하고 예측하기 위한 도구가 될 것이라고 위치 지었다. 또 이 벤치마크를 오픈소스화해 AI의 기술적 능력 성장을 커뮤니티 전체가 추적하고 평가할 수 있게 할 것이라고 밝히며 코드를 깃허브에 호스팅하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular