대규모 언어 모델(LLM)을 단 4GB 정도 실행 파일 하나로 손쉽게 배포하고 실행할 수 있게 해주는 패키지인 라마파일(llamafile) v0.7이 공개됐다. 이번 버전에선 CPU와 GPU 모두 계산 성능과 정확도가 향상됐으며 AVX-512 명령어 세트 아키텍처 지원으로 AMD 젠4(Zen4) 아키텍처 CPU 등에서 프롬프트 처리 시간이 10배 빨라졌다고 한다.
라마파일은 대부분 시스템에서 실행 가능한 단일 파일로 LLM을 제공해 개발자와 엔드유저가 LLM을 손쉽게 배포하고 활용할 수 있도록 해주는 방식이다.
현지 시간 3월 31일 출시된 라마파일 v0.7에선 CPU 프롬프트 처리 속도가 크게 향상됐다고 보고됐다. 개발자는 라마파일 v0.7과 v0.6.2 그리고 라마파일에 포함된 고속화 도구(llama.ccp 2024-03-26)를 실행하고 처리 속도 차이를 확인했다. 다양한 모델과 매개변수로 실행했을 때 라마파일 v0.7이 뛰어난 결과를 보였다고 한다. 라즈베리파이 v5(ARMv8.2)와 라즈베리파이 v4(ARMv8.0)에서의 실행 결과도 공개했다. 라즈베리파이 v5에서는 이전 버전과 비교해 최대 8배 가까운 차이를 보였다.
릴리스 노트에 따르면 라마파일 v0.7은 인텔 AVX-512 명령어 아키텍처를 지원해 젠4 아키텍처 등 환경에서 처리 속도가 10배 빨라졌다고 한다. 관련 내용은 이곳에서 확인할 수 있다.