알리바바, 이미지 생성 AI ‘Qwen VLo’ 발표했다

알리바바 AI 개발팀인 큐웬(Qwen)이 이미지 생성 AI Qwen VLo를 6월 26일 발표했다. Qwen VLo는 이미지 내에 포함된 콘텐츠 이해력이 높고 정확한 이미지 편집이 가능하다고 한다. 또 프로그레시브 생성 기법을 도입해 좌상단부터 순서대로 이미지가 생성되는 것도 특징이다.

기존 이미지 생성 AI 모델 대부분은 이미지 전체를 거칠게 묘사하고 단계적으로 고해상도로 만들어가는 생성 기법을 도입하고 있지만 Qwen VLo는 프로그레시브 생성 기법을 도입해 이미지가 왼쪽에서 오른쪽으로, 위에서 아래로 단계적으로 생성된다. Qwen VLo는 이미지 생성 중 예측 내용을 지속적으로 개선·최적화하며 최종적인 생성 결과 일관성을 확보하고 있다. 개발팀은 프로그레시브 생성 기법에 대해 시각적 품질을 향상시킬 뿐 아니라 사용자에게 유연하고 제어 가능한 크리에이티브 경험을 제공할 수 있다고 어필하고 있다.

Qwen VLo는 채팅 AI인 Qwen Chat 내에서 이용 가능하다. 언어는 중국어와 영어에 대응하며 텍스트로부터의 이미지 생성 뿐 아니라 이미지를 입력해 편집하는 것도 가능하다.

Qwen VLo는 이미지 내 콘텐츠를 인식하는 능력이 기존 모델과 비교해 강화됐으며 차량 색을 빨간색으로 변경과 같은 자연어 지시를 이해해 편집 결과에 정확히 반영할 수 있다.

Qwen VLo는 현재 프리뷰 단계로 프롬프트와의 불일치나 원본 이미지와의 불일치 같은 문제가 발생할 가능성이 있다고 한다. 개발팀은 앞으로도 모델 개선에 힘쓸 계획이다. 관련 내용은 이곳에서 확인할 수 있다.