알리바바가 새로운 AI 모델인 Qwen2-VL을 출시했다. 이 모델은 20분을 넘는 동영상을 분석하고 내용에 대한 질문에 요약해서 답변할 수 있는 뛰어난 이미지 및 동영상 이해 능력을 보유하고 있다.
오픈AI GPT-4o나 앤트로픽 클로드 3.5-소넷 같은 다른 모델과 비교해 보면 Qwen2-VL이 많은 면에서 뛰어난 성능을 보여준다. 이미 영어, 중국어 외에도 한국어와 일본어를 지원하고 있으며 무료 데모를 시험해볼 수 있다.
Qwen2-VL은 이전 모델 Qwen-VL을 개선한 것으로 시각 이해 벤치마크 성능 향상, 20분 이상 동영상 이해, 스마트폰이나 로봇 등에서 작동하는 에이전트 기능, 다국어 지원 등 기능이 추가됐다. 그 중에서도 Qwen2-VL-72B 모델은 복잡한 대학 수준 문제 해결력, 수학 능력, 문서와 표 이해, 다국어 텍스트와 이미지 이해, 일반적인 시나리오에 대한 질문 응답, 동영상 이해, 에이전트 응답 등 6가지 지표에서 타사 주요 모델을 능가하는 성능을 보였다.
제공된 이미지에 따르면 Qwen2-VL-72B는 대부분 벤치마크에서 뛰어난 성능을 보였으며 그 중에서도 폐쇄형 모델인 GPT-4o와 클로드 3.5-소넷을 오픈소스 모델인 Qwen2-VL-72B가 능가했다는 점이 돋보인다. Qwen2-VL-7B 모델 역시 동급 모델에 비해 문서 이해와 이미지로부터의 다국어 텍스트 이해 등에서 뛰어난 성능을 보였다.
또 모바일 최적화 모델인 Qwen2-VL-2B도 등장했는데 알리바바는 이 모델이 이미지, 동영상, 다국어 이해 분야에서 뛰어난 성능을 보이며 그 중에서도 동영상 관련 작업, 문서 이해, 일반적인 시나리오 질문 응답 등에서 동등 규모 다른 모델을 능가한다고 소개했다.
Today we are thriiled to announce the release of Qwen2-VL! Specifically, we opensource Qwen2-Vl-2B and Qwen2-VL-7B under Apache 2.0 license, and we provide the API of our strongest Qwen2-VL-72B! To learn more about the models, feel free to visit our:
— Qwen (@Alibaba_Qwen) August 29, 2024
Blog:… pic.twitter.com/aBIDeQtWZY
Qwen2-VL이 갖춘 인식 능력을 보여주는 예시도 제공됐다. 숫자가 적힌 블록 사진에서 각 블록 색상과 숫자를 정확하게 출력해낸 것.
실제로 허깅페이스에서 Qwen2-VL-72B 모델을 직접 체험해볼 수 있다. 이미지나 동영상을 올리고 질문을 입력하면 내용을 분석해 응답해줍니다. 다만 20분 이상 동영상 처리를 할 때에는 5분 이상 응답 시간이 소요된다.
알리바바 측은 Qwen2-VL이 식물, 랜드마크 뿐 아니라 장면 내 여러 물체 간 복잡한 관계도 이해할 수 있는 뛰어난 물체 인식 능력을 지니고 있으며 손글씨와 다국어 인식 능력도 크게 향상됐다고 설명했다. 수학적 능력과 코딩 능력도 크게 향상되어 복잡한 수학적 문제를 해석할 수 있게 됐다고 밝혔다.
한편 Qwen2-VL 지식은 2023년 6월까지만 업데이트된 상태라고 한다. 알리바바는 사용자 피드백과 Qwen2-VL을 활용한 혁신 애플리케이션을 기대하고 있으며 차기 언어 모델을 토대로 더 강력한 비전-언어 모델을 구축하고 시각과 음성을 아우르는 옴니모델로 발전시켜 나갈 계획이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.