트랜스포머‧맘바2 하이브리드 소형 언어 모델 공개

미국 AI 스타트업 지프라(Zyphra)가 자연어 처리 모델인 Zamba2-7B를 출시했다. 지프라는 Zamba2-7B가 구글 젬마(Gemma)나 메타 Llama 3 시리즈를 능가하는 성능을 발휘한다고 밝히고 있다.

Zamba2-7B는 기존 언어 모델에서 널리 사용되는 트랜스포머(Transformer) 아키텍처와 2023년 12월 발표된 맘바(Mamba) 아키텍처 하이브리드인 잠바(Zamba) 아키텍처로 설계됐다.

또 Zamba2-7B는 이전 모델인 Zamba1에서 진화해 Mamba1 블록을 Mamba2 블록으로 대체하고 교차 배치된 공유 어텐션 블록 2개를 도입했다. 여기서 공유란 동일한 가중치를 가진 어텐션 블록이 모델 내 여러 위치에서 재사용된다는 걸 의미한다. 이 공유 접근법은 모델 전체 파라미터 수를 줄이면서도 트랜스포머 아키텍처 기능을 활용해 모델 크기와 성능 균형을 유지할 수 있다고 설명하고 있다.

효율성을 높이기 위해 대규모 언어 모델의 파인튜닝에 사용되는 LoRA(Low-Rank Adaptation) 프로젝터를 각 공유 다층 퍼셉트론(MLP)과 어텐션 블록에 적용해 네트워크 깊이에 따른 특수화를 가능하게 했다. 또 공유 어텐션 레이어에 로터리 포지션 임베딩(Rotary Position Embeddings)을 도입해 성능을 더 향상시켰다.

Zamba2-7B는 74억 개 파라미터를 보유하고 있으며 2조 개 텍스트 및 코드 데이터를 사용해 사전 학습을 진행한 뒤 1,000억 개 고품질 토큰을 이용한 추가 학습 단계를 거쳤다. 그 결과 Zamba2-7B는 8B 이하 파라미터를 가진 모델 중에서 Mistral-7B, Gemma 7B, Llama 3.1-8B 등을 능가하는 성능을 보였다고 지프라 측은 주장하고 있다.

그 중에서도 지프라는 Zamba2-7B 추론 효율성에 주목한다. Zamba2-7B는 기존 트랜스포머 기반 모델과 비교해 훨씬 적은 메모리 사용량으로 빠르게 생성할 수 있으며 토큰 생성 시간이 25% 단축되고 토큰 생성 속도는 20% 향상됐다.

Zamba2-7B는 아파치 2.0 라이선스로 오픈 소스로 공개되어 연구자, 개발자, 기업이 자유롭게 사용할 수 있다. 지프라는 Zamba2-7B가 소형이지만 고성능과 효율성을 겸비한 언어 모델로 온디바이스 처리나 소비자용 GPU에서의 실행, 다양한 엔터프라이즈 애플리케이션에 적합한 선택이 될 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.