독자 비주얼 언어 모델 공개한 AMD

반도체 대기업 AMD가 첫 시각 언어 모델(VLM)인 인스텔라-VL-1B(Instella-VL-1B)를 발표했다. 인스텔라-VL-1B는 AMD가 3월 발표한 언어 모델인 인스텔라(Instella) 패밀리 중 하나로 AMD 생성 AI용 GPU인 AMD Instinct MI300X로 트레이닝된 VLM이다.

인스텔라-VL-1B는 파라미터 수가 3억인 비전 인코더와 파라미터 수가 12억인 언어 모델을 조합한 파라미터 수 15억의 멀티모달 모델. AMD는 인스텔라-VL-1B를 구축하기 위해 LLaVA, Cambrian, Pixmo 같은 데이터세트를 조합하고 사전 트레이닝과 SFT(지도 학습 파인튜닝) 양쪽 단계에서 새로운 데이터 혼합물을 만들었다. 구체적으로는 M-Paper, DocStruct4M, DocDownstream 등 보다 풍부한 문서 관련 데이터세트를 채택해 모델 문서 이해 능력을 강화하고 있다. 새로운 사전 트레이닝 데이터세트(700만 예제)와 SFT 데이터세트(600만 예제)를 통해 인스텔라-VL-1B는 일반적인 시각 언어 태스크와 OCR 관련 벤치마크 양쪽에서 LLaVa-OneVision나 MiniCPM-V2 같은 동등 크기 오픈소스 모델을 크게 웃도는 퍼포먼스를 실현했다. 또 오픈웨이트 모델인 InternVL2-1B와 비교하면 일반 벤치마크에서는 뛰어나고 OCR 관련 벤치마크에서는 동등한 퍼포먼스를 달성하고 있다.

인스텔라-VL-1B는 LLaVA 코드 베이스를 AMD 제조 하드웨어 및 모델 아키텍처에 맞게 적응·최적화하고 있으며 공개되어 있는 데이터세트만 사용해 트레이닝되어 있다. AMD 생성 AI용 GPU인 AMD MI300X를 사용해 트레이닝됐으며 AMD는 인스텔라-VL-1B에 대해 멀티모달 AI에서 오픈소스 AI 기술 진보에 대한 자사 노력을 체현하는 것이라고 설명했다.

AMD는 오픈소스 노력에 맞춰 인스텔라-VL-1B 모델 가중치 뿐 아니라, 자세한 트레이닝 구성, 데이터세트, 코드 등도 공유하고 있다. 관련 내용은 이곳에서 확인할 수 있다.