알리바바, Qwen2.5-VL-32B 오픈소스로 출시

알리바바 클라우드 AI 연구팀인 큐원(Qwen)이 지난 1월 출시한 시각 언어 모델인 Qwen2.5 VL 시리즈를 기반으로 새로운 시각 언어 모델 Qwen2.5-VL-32B를 출시했다. 이 모델은 이미지 분석와 콘텐츠 인식 정확도가 향상되어 응답 품질이 개선됐다.

지난 1월 출시된 Qwen2.5 VL에는 파라미터 크기가 다른 3B, 7B, 72B 등 3개 모델이 존재한다. 가장 큰 규모인 72B 모델은 GPT-4o와 제미나이 2.0 플래시를 능가하는 성능을 보유하고 있다.

큐원팀은 Qwen2.5 VL 모델을 기반으로 강화 학습을 활용해 모델을 최적화해 다양한 능력을 강화한 Qwen2.5-VL-32B 모델을 개발했다. 멀티모달 성능을 측정하는 벤치마크 비교 결과 새 모델은 Mistral Small 3.1-24B와 Gemma 3-27B-IT 등 유사한 파라미터 규모 모델보다 뛰어난 결과를 보였으며 파라미터 수가 2배 이상인 Qwen2-VL-72B 모델의 성능도 여러 지표에서 능가했다.

큐원팀 블로그에는 Qwen2.5-VL-32B가 갖춘 문제 해결 능력을 보여주는 예시가 게재되어 있다. 예를 들어 제한 속도가 표시된 이미지와 함께 대형 트럭을 운전 중이고 현재 12시라며110km 떨어진 곳에 13시까지 도착할 수 있겠냐는 프롬프트에 대해 모델은 이미지에서 트럭 제한 속도를 읽어 정확히 아니오라고 답했다. 또 복잡한 수학 문제에 대해서도 정확한 답변을 제공했으며 Qwen2.5 시리즈 중 특히 수학 능력이 강화됐다는 평가를 받고 있다.

Qwen2.5-VL-32B는 아파치 라이선스 2.0 오픈소스 라이선스로 공개되어 무료 사용 및 상업적 활용이 가능하다. Qwen2.5 시리즈 사용을 위한 코드 역시 동일한 라이선스로 공개되어 있어 관심 있는 사용자가 쉽게 접근할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.