챗GPT나 바드 등에서 사용되는 채팅 AI는 학습 뿐 아니라 동작에도 수십에서 수백GB VRAM 등 고사양을 요구하는 게 보통이다. 이런 상황을 바꿀 수 있도록 GPU가 필요 없는 채팅 AI를 동작시키는 라이브러리인 GGML 개발이 진행되고 있다.
GGML 특징은 C를 이용하고 16비트 float를 지원하며 5비트, 5비트, 8비트 정수로의 양자화를 지원한다. 또 자동 미분, x86 아키텍처 AVX와 AVX2를 이용한다. WebAssembly, WASM, SIMD에 의한 웹을 지원한다.
GGML은 개발 중인 프로젝트지만 몇 가지 데모가 공개되어 있다. 공개된 것 중에는 GGML과 whisper.cpp를 이용해 음성으로 명령을 입력하는데 라즈베리파이 초경량 컴퓨터로 동작하게 하고 있다. 또 130억 파라미터 LLaMA와 위스퍼를 조합한 모델을 동시에 애플 M1 프로 4개상에서 동작시키는 데모도 있는 등 경량이라는 점을 어필하고 있다. 애플 M2 맥스에서 70억 파라미터 LLaMA 모델을 작동시키리면 초당 40토큰 처리를 할 수 있다.
GGML은 MIT 라이선스로 제공되며 누구나 무료로 이용할 수 있다. 개발팀은 코드를 작성해 라이브러리를 개선하는 게 가장 큰 지원이 될 것이라며 개발 협력자도 모집하고 있다. 관련 내용은 이곳에서 확인할 수 있다.