메타가 개발한 대규모 언어 모델 Llama 3.2 제품군에서 첫 경량 양자화 모델이 출시됐다. 기존 성능을 거의 유지하면서도 추론 속도와 메모리 사용량이 크게 개선됐다.
메타는 9월 26일 Llama 3.2 제품군을 공개했다. 11B・90B라는 큰 모델과 함께 1B・3B라는 모바일 기기용 작은 모델도 준비되어 있었다.
이번에 메타는 Llama 3.2 1B 모델 및 3B 모델에 대해 부분별로 4비트에서 8비트의 양자화를 실시했다. 학습 시 양자화 영향을 고려하는 양자화 인식 학습(QAT)을 실시한 뒤 LoRA 어댑터를 적용해 지도 학습 파인튜닝을 실시하는 QLoRA라는 방법을 사용해 거의 성능을 유지하면서도 모델 경량화에 성공했다고 한다.
Llama 3.2 1B 모델에 대해 양자화 이전 원본 모델인 BF16을 1로 해 정확도와 토큰 디코딩 속도를 비교해보면 QLoRA는 정확도를 조금 낮추면서도 디코딩 속도를 2.5배까지 높였다는 걸 알 수 있다. 또 SpinQuant 및 PTQ라는 다른 방법은 QLoRA 이상 속도를 달성했지만 정확도가 떨어졌다는 것도 알 수 있다.
구체적인 각종 벤치마크 평균 점수를 보면 QLoRA는 BF16에 비해 1.13% 하락했다. Llama 3.2 3B 모델에서도 QLoRA는 BF16에 비해 1.95% 성능 저하가 발생했다고 한다.
한편 토큰 디코딩 속도는 두 모델 모두 2.4배가 됐으며 첫 토큰이 생성되기까지 걸리는 시간은 76% 감소했다. 입력 토큰을 병렬 처리하는 Prefill을 사용할 경우 속도는 4.2배가 됐고 모델 크기는 절반 이하로 줄었다. 추론 중 사용하는 메모리량은 1B 모델에서 30% 감소했고 3B 모델에서는 45% 감소하는 결과를 보였다.
이번에 출시된 모델은 Llama 공식 사이트와 허깅페이스에서 다운로드할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.