테크레시피
알리바바, 이미지 인식 가능한 오픈웨이트 AI 모델 출시

알리바바, 이미지 인식 가능한 오픈웨이트 AI 모델 출시

알리바바 대규모 언어 모델 Qwen 연구팀이 시각적 추론 기능 강화에 중점을 둔 실험적 연구 모델로 QVQ-72B-Preview를 공개했다.

QVQ-72B-Preview는 Qwen2-VL-72B를 기반으로 시각적 추론 능력을 강화한 모델. 기반이 된 Qwen2-VL-72B는 2024년 9월 출시된 모델로 동영상을 이해하고 다국어를 사용하는 능력이 있었다.

QVQ-72B-Preview는 모델 시각 관련 종합 이해와 추론 능력을 평가하는 MMMU 벤치마크에서 이전 모델인 Qwen2-VL을 크게 앞서고 최첨단 모델인 오픈AI o1 모델과의 격차를 좁혔다. 또 수학과 물리학 능력을 측정하는 다른 3개 벤치마크에서도 Qwen2-VL보다 크게 점수가 향상됐다.

한편 연구팀은 QvQ-72B-Preview는 실험적 연구 모델이라고 밝히며 이전 Qwen2-VL 모델에서 가능했던 동영상 입력이 불가능한 걸 비롯해 실용화 시 문제가 될 수 있는 점을 지적하고 있다. 응답 시 여러 언어가 섞이는 경우가 있다는 점, 추론 중 순환적인 논리 패턴에 빠져 결론을 내지 못하고 중복된 응답을 생성하는 경우가 있다는 점, 보안과 신뢰성을 확보하기 위해서는 별도 안전 대책이 필요하다는 점, 여러 단계 시각적 추론 중에 이미지 콘텐츠에 대한 초점을 잃고 환각을 일으키는 경우가 있다는 점 등이다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular