허깅페이스(Hugging Face)가 전 세계 오픈소스 언어 모델 순위를 매기는 오픈 LLM 리드보드(Open LLM Leaderboard) 버전 2를 공개했다. 공개 시점에서 1위를 차지한 건 알리바바가 개발한 Qwen2-72B-Instruct였다.
각 언어 모델은 순위 산정에서 지능 테스트, 짧은 맥락과 긴 맥락에서의 추론, 복잡한 수학 능력, 인간 지시를 얼마나 잘 따르는지 등 4가지 과제로 평가됐다. 평가에는 객관식 벤치마크 MMLU-Pro, 고도로 전문적인 지식을 측정하는 GPQA, 살인 사건 미스터리를 해결하는 등 문제가 있는 MuSR, 수학 적성 테스트 MATH, 지시를 따르는 능력을 묻는 IFEval, 인간 흥미를 끄는 답변을 내는지 측정하는 BBH, 이상 6개 벤치마크가 사용됐다.
7,500개 이상 모델이 평가됐으며 당당히 1위를 차지한 건 Qwen2-72B-Instruct였다. 허깅페이스는 Qwen2-72B-Instruct는 다른 모델보다 한 수 위라고 밝혔다. 실제로 평균 평가 점수가 40점대에 도달한 건 Qwen2-72B-Instruct뿐이었다. 물론 순위는 계속 바뀌고 있다. 관련 내용은 이곳에서 확인할 수 있다.