허깅페이스 AI 모델 테스트 1위는 누구?

허깅페이스(Hugging Face)가 전 세계 오픈소스 언어 모델 순위를 매기는 오픈 LLM 리드보드(Open LLM Leaderboard) 버전 2를 공개했다. 공개 시점에서 1위를 차지한 건 알리바바가 개발한 Qwen2-72B-Instruct였다.

각 언어 모델은 순위 산정에서 지능 테스트, 짧은 맥락과 긴 맥락에서의 추론, 복잡한 수학 능력, 인간 지시를 얼마나 잘 따르는지 등 4가지 과제로 평가됐다. 평가에는 객관식 벤치마크 MMLU-Pro, 고도로 전문적인 지식을 측정하는 GPQA, 살인 사건 미스터리를 해결하는 등 문제가 있는 MuSR, 수학 적성 테스트 MATH, 지시를 따르는 능력을 묻는 IFEval, 인간 흥미를 끄는 답변을 내는지 측정하는 BBH, 이상 6개 벤치마크가 사용됐다.

7,500개 이상 모델이 평가됐으며 당당히 1위를 차지한 건 Qwen2-72B-Instruct였다. 허깅페이스는 Qwen2-72B-Instruct는 다른 모델보다 한 수 위라고 밝혔다. 실제로 평균 평가 점수가 40점대에 도달한 건 Qwen2-72B-Instruct뿐이었다. 물론 순위는 계속 바뀌고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기