구글, 미세 조정이 용이한 시각 언어 모델 출시했다

정용환 기자

2024.12.09

구글은 12월 5일 오픈 소스이면서 경량화된 언어 모델인 젬마2(Gemma 2)를 기반으로 시각 기능을 추가한 시각 언어 모델인 팔리젬마2(PaliGemma 2)를 발표했다. 팔리젬마는 젬마 제품군 첫 시각 언어 모델로 깃허브와 허깅페이스 등을 통해 널리 이용 가능하며 이미지를 인식하고 이미지 내용을 언어로 설명하거나 이미지 내 텍스트를 이해하는 기능을 갖추고 있다.

이번에 출시된 후속 모델인 팔리젬마2는 여러 모델 크기(3B, 10B, 28B)와 해상도(224×224, 448×448, 896×896 픽셀)로 제공되며 모든 작업 성능을 최적화한다. 또 캡션 길이도 판매 포인트 중 하나로 단순히 객체를 인식하는 걸 넘어 움직임, 감정, 전체 장면 배경을 설명할 수 있는 상세하고 맥락에 맞는 캡션을 생성할 수 있으며 화학식이나 악보 인식, 공간 추론, 흉부 엑스선 이미지 보고서에서 뛰어난 성능을 보인다고 한다.

시연 사이트도 마련되어 있다. 그래프를 입력하고 어떤 그래프인지 물어보는 샘플을 클릭해보면 모델은 미세 조정 후 정확도라고 답변했다.

구글은 팔리젬마2로 사용자가 어떤 작품을 만들어낼지 매우 기대된다며 활기찬 젬마 커뮤니티에 참여하고 프로젝트를 젬마버스(Gemmaverse)에서 공유해 AI의 무한한 가능성을 함께 계속 탐구하자고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사