이미지 인식이 가능한 오픈소스 모델 LLaMA 3-V가 공개됐다. LLaMA 3-V는 오픈AI 멀티모달 모델 GPT-4-V보다 훨씬 작지만 사전 학습 비용은 500달러 정도에 불과함에도 불구하고 거의 모든 지표에서 동등한 성능을 보인다.
이번에 발표된 LLaMA 3-V는 메타가 공개한 언어 모델 LLaMA3 8B를 기반으로 한 모델로 벤치마크에서 인기 멀티모달 모델 LlavaFlant에 비해 성능이 10~20% 향상됐으며 MMMU를 뺀 모든 지표에서 크기가 100배 이상인 클로즈드 소스 경쟁 모델과 맞먹는 성능을 갖추고 있다는 게 입증됐다.
샘플을 클릭해보면 물가 이미지를 주제로 ‘이곳을 방문할 때 주의해야 할 점은 뭐냐는 질문에 대해 흐린 날씨라 갑자기 비가 오거나 폭풍이 올 수 있으며 배 정박지가 호수에 있어 부유물이나 물 밑에 있는 잠재적인 위험물 등 물 상황에 주의해야 한다고 밝히고 야생동물을 포함한 주변 환경을 배려하여 안전하고 즐거운 방문을 위해선 지역 관리자가 제시한 규칙과 가이드라인을 따라야 한다고 답한다. 직접 준비한 이미지를 올리고 이미지에서 재미있는 부분을 묻는 문장을 입력하면 답을 해주기도 한다.
LLaMA 3-V를 공개한 개발자(Aksh Garg)에 따르면 이 모델은 먼저 이미지를 SigLIP 비전 모델에 전달해 이미지와 텍스트의 관련성을 분석한 다음 이를 LLaMA 3에 전달해 동작한다고 한다.
개발자는 LLaMA 3는 세계를 휩쓸었고 거의 모든 벤치마크에서 GPT-3.5를, 일부 벤치마크에서는 GPT-4를 능가했다며 GPT-4가 등장해 멀티모달 정확도에서 다시 왕좌를 차지했지만 LLaMA 3-V는 이를 뒤집을 모델이라고 강조했다. 또 LLaMA 3 위에 구축된 멀티모달 모델은 사상 처음이며 학습 비용은 500달러에 불과하다고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.