메모리 2GB폰에서도 실행 가능? 구글, 젬마 3n 출시

구글이 경량이면서도 고성능인 멀티모달 AI 모델인 젬마 3n(Gemma 3n)을 6월 26일 정식 출시했다. 정식 출시와 함께 세부 사양과 벤치마크 결과가 공개됐다.

구글 주력 AI 제품인 제미나이는 높은 성능을 갖추고 있지만 제미나이이용은 구글 앱이나 API를 통한 이용이 전제되어 있어 모델 데이터를 자유롭게 다룰 수 없다. 반면 젬마 시리즈는 처음부터 오픈 웨이트 모델로 개발되어 개발자가 모델 데이터를 다운로드해 자유롭게 사용할 수 있다.

젬마 시리즈는 대규모부터 소규모까지 다양한 종류가 라인업되어 있으며 그중에서도 2025년 5월 초기 프리뷰 버전이 공개된 젬마 3n은 스마트폰에서도 동작할 정도의 소형 모델이면서도 높은 성능을 가지고 있다며 주목받았다. 그런 젬마 3n이 6월 26일 정식 출시되어 허깅페이스와 카글에서 모델 데이터를 다운로드할 수 있게 됐다.

젬마 3n은 맷포머(MatFormer)라고 불리는 아키텍처로 훈련됐으며 젬마 3n E4B라는 메인 모델 훈련 중 젬마 3n E2B라는 소형 서브 모델도 동시에 최적화됐다. 구글은 맷포머에 대해 “마트료시카처럼 큰 모델 안에 그 자체의 완전히 기능하는 소형 버전이 포함되어 있는 것 같은 것이라고 설명했다.

또 젬마 3n에는 PLE(Per-Layer Embeddings)라고 불리는 메모리 절약 기술이 채용되어 기존 방법과 비교해 메모리에 로드해야 하는 데이터가 대폭 줄었다. 이를 통해 젬마 3n E2B는 파라미터 수 5B이면서도 기존 2B 모델과 동등한 메모리 소비량을 실현해 최소 2GB 메모리 사용량으로 동작 가능하다. 또 젬마 3n E4B 파라미터 수는 8B이지만 기존 4B 모델과 동등한 메모리 풋프린트로 동작하며 3GB 메모리 사용량으로 실행할 수 있다.

젬마 3n E4B 채팅 성능을 제미나이 1.5 프로, Llama 4 매버릭 17B-128E, GPT 4.1-nano, Phi-4와 비교하면 젬마 3n E4B는 비교적 대형인 Llama 4 매버릭 17B-128E나 Phi-4 점수를 앞섰고 상용 모델인 GPT 4.1-nano보다도 양호한 결과를 기록했다.

젬마 3n은 텍스트 뿐 아니라 이미지, 음성, 동영상 입력도 지원한다. 또 각종 실행 환경(Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX)을 지원하는 한편 스마트폰용 앱(Google AI Edge Gallery)를 사용해 로컬 동작시키는 것도 가능하다. 더 나아가 구글 AI 스튜디오에서 채팅 AI 데모를 실행하는 것도 가능하다. 관련 내용은 이곳에서 확인할 수 있다.