구글, 미세 조정이 용이한 시각 언어 모델 출시했다

구글은 12월 5일 오픈 소스이면서 경량화된 언어 모델인 젬마2(Gemma 2)를 기반으로 시각 기능을 추가한 시각 언어 모델인 팔리젬마2(PaliGemma 2)를 발표했다. 팔리젬마는 젬마 제품군 첫 시각 언어 모델로 깃허브와 허깅페이스 등을 통해 널리 이용 가능하며 이미지를 인식하고 이미지 내용을 언어로 설명하거나 이미지 내 텍스트를 이해하는 기능을 갖추고 있다.

이번에 출시된 후속 모델인 팔리젬마2는 여러 모델 크기(3B, 10B, 28B)와 해상도(224×224, 448×448, 896×896 픽셀)로 제공되며 모든 작업 성능을 최적화한다. 또 캡션 길이도 판매 포인트 중 하나로 단순히 객체를 인식하는 걸 넘어 움직임, 감정, 전체 장면 배경을 설명할 수 있는 상세하고 맥락에 맞는 캡션을 생성할 수 있으며 화학식이나 악보 인식, 공간 추론, 흉부 엑스선 이미지 보고서에서 뛰어난 성능을 보인다고 한다.

시연 사이트도 마련되어 있다. 그래프를 입력하고 어떤 그래프인지 물어보는 샘플을 클릭해보면 모델은 미세 조정 후 정확도라고 답변했다.

구글은 팔리젬마2로 사용자가 어떤 작품을 만들어낼지 매우 기대된다며 활기찬 젬마 커뮤니티에 참여하고 프로젝트를 젬마버스(Gemmaverse)에서 공유해 AI의 무한한 가능성을 함께 계속 탐구하자고 말했다. 관련 내용은 이곳에서 확인할 수 있다.