상업용 LLM보다 수학 성능 뛰어나다?

중국 AI 연구팀이 수학 특화 대규모 언어 모델 Qwen2-Math를 공개했다. Qwen2-Math는 GPT-4o와 제미나이 1.5 프로 등 클로즈드 소스 대규모 언어 모델을 능가하는 수학 성능을 갖추고 있다.

Qwen2-Math는 알리바바 그룹 AI 연구팀(Qwen Team)이 개발한 대규모 언어 모델로 높은 수학 문제 정답률이 특징이다. Qwen2-Math는 높은 성능으로 화제가 된 Qwen2 시리즈 파생 모델로 Qwen2로 생성한 수학 관련 정보 등을 학습 데이터로 사용했다고 한다.

Qwen2-Math에는 기본 모델인 Qwen2-Math-1.5B, Qwen2-Math-7B, Qwen2-Math-72B와 명령 조정 모델인 Qwen2-Math-1.5B-Instruct, Qwen2-Math-7B-Instruct, Qwen2-Math-72B-Instruct가 있다. 각종 대규모 언어 모델 출시 시기와 수학 문제 정답률을 보면 Qwen2-Math-72B-Instruct는 GPT-4o, 클로드 3.5 소넷, 제미나이 1.5 프로, Llama 3.1 405B 같은 모델과 비교해 수학을 푸는 성능이 높다는 걸 알 수 있다.

대규모 언어 모델 수학 성능 벤치마크 실행 결과 Qwen2-Math 명령 조정 모델 중 가장 파라미터 수가 적은 Qwen2-Math-1.5B-Instruct도 대부분 벤치마크 테스트에서 Llama-3.1-70B-Instruct 점수를 상회한다.

Qwen2-Math는 현재 영어만 지원하며 가까운 시일 내에 중국어 버전도 공개될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.