테크레시피

AI 벤치마크 ARC-AGU서 최고 기록 세운 GPT-4o

AI 연구자 라이언 그린브라트가 일반적인 AI 추론 능력을 평가하는 지표인 ARC-AGI에서 GPT-4o를 활용해 50% 정답률을 달성할 수 있었다고 발표했다. ARC-AGI에서는 주어진 예시로부터 규칙을 추론헤 문제 속 그림에 대응하는 올바른 결과를 산출하면 된다. 사람이 이 과제를 수행할 경우 아이라도 85%에서 100% 점수를 받을 수 있지만 지금까지 AI가 ARC-AGI에서 기록한 최고 점수는 34%로 많은 벤치마크 중에서도 사람과의 격차가 두드러졌다.

그린브라트가 내건 아이디어는 GPT-4o에게 문제에서 답을 생성해내는 파이썬 프로그램을 대량으로 만들게 한 다음 모든 예시에 적용해보고 유망해 보이는 프로그램을 사용하는 단순한 것이었다. 실제로는 GPT-4o가 문제를 읽어 들이기 위한 표현 방식에 공을 들이거나 단계적이고 주의 깊게 추론하도록 하는 구체적인 예시를 보여주는 퓨-샷(few-shot) 프롬프트, 유망한 후보를 수정하기 위한 프롬프트 등이 필요했고 50% 점수를 달성하기까지 6일이 걸렸다고 한다. 50% 점수를 내기 위해 실제로 사용한 코드는 깃허브에 공개됐다.

그린브라트에 따르면 ARC-AGI 학습 데이터와 테스트 데이터 난이도가 달랐고 학습 데이터에서 일부를 추출해 테스트에 사용하면 72% 점수를 얻을 수 있었다고 한다.

그는 6일 동안 ARC-AGI를 풀기 위한 프롬프트를 여러 번 수정하고 버전을 올렸는데 초기 V0 버전에서는 파이썬 프로그램 1,024개를 생성해 25% 정답률이었지만 최종 V2 버전에서는 2,048개 프로그램을 생성해 34% 정답률을 기록했다.

모든 버전을 종합하면 정답률이 37%까지 향상되고 나아가 유망한 후보를 수정하는 단계를 추가하면 50%에 도달할 수 있었다고 한다. 생성하는 프로그램 수를 늘리면 정답률이 높아지는 것으로 확인됐고 그린브라트는 문제당 200만 개 프로그램을 생성하면 정답률이 70%에 이를 것이라 추측했다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독