중국 IT 기업인 알리바바가 720억 파라미터 수를 자랑하는 트랜스포머 기반 대규모 언어 모델인 Qwen-72B, 음성 입력에 대응한 멀티 모달 버전인 Qwen-Audio 오픈소스화를 발표했다.
Qwen-72B는 3조 이상 토큰으로 학습한 대규모 언어 모델로 다양한(MMLU, C-Eval, GSM8K, MATH, HumanEval, MBPP, BBH) 자연어 이해와 수적 처리, 코딩 등에 관한 일련 벤치마크에서 모두 같은 크기 모델인 메타 LLaMA2-70B를 웃돌았다. 또 10개 태스크 중 7개에서 오픈AI GPT-3.5를 뛰어넘는 성적을 거뒀다.
다만 요구 메모리 용량이 크기 때문에 로컬로 움직이는 건 조금 엄격하다는 의견도 있다. Qwen에는 Qwen-72B 외에 파리미터 크기가 다른 Qwen-1.8B, Qwen-7B, Qwen-14B도 있다. 또 중국어 사용자 등록이 필요하지만 Qwen-72B로 브라우저를 실행할 수 있는 데모도 준비되어 있다.
오디오 입력 대응 모델인 Qwen-Audio도 오픈소스화됐다. Qwen-Audio는 Qwen-7B와 오픈AI 음성 인코더인 Whisper-large-v2를 조합한 것으로 기존 첨단(State of the Art: SoTA) 모델을 모든 태스크에서 웃돈다고 한다. Qwen-Audio 데모는 허깅페이스에서 사용자 등록 없이 써볼 수 있다. Qwen-Audio-Chat은 중국어 외에 한국어와 영어, 일본어, 독일어, 스페인어, 이탈리아어 음성 이해를 지원한다. 관련 내용은 이곳에서 확인할 수 있다.