일상에서 AI 사용에 대한 관심이 높아지는 가운데 오픈AI GPT-3이나 마이크로소프트의 코스모스-1 등 대규모 언어 모델 LLM이 주목받고 있다. 이런 가운데 지난 2월에는 메타가 새로운 LLM인 LLaMA를 발표했다. LLaMA는 GPT-3보다 작은 규모이면서 GPT-3에 필적하는 성능을 GPU 환경에서 낼 수 있다고 알려져 있다. 한 엔지니어가 M1 애플실리콘 탑재 맥에서 LLaMA를 동작시키는 flama.cpp를 깃허브에 공개해 눈길을 끈다.
LLaMA는 메타 AI 연구 조직인 메타AI리서치가 발표한 LLM이다. LLM 규모를 나타내는 파라미터 수는 70억에서 650억으로 LLaMA 13B 모델 벤치마크 테스트 결과는 파라미터 수 1,750억인 GPT-3에 필적했다고 보고됐다.
또 원래라면 AI에 최적화된 가속기를 복수 사용한 데이터센터 환경이 아니면 동작이 어려운 GPT-3과 달리 LLaMA는 단독 GPU에서도 문제없이 동작했기 때문에 소비자 수준 하드웨어 환경에서도 챗GPT와 같은 대화형 AI를 실행할 가능성도 제시됐다.
LLaMA는 코드 일부만 깃허브에 호스팅됐으며 메타AI리서치에 연락하면 가중치 데이터를 포함한 완전한 코드를 받을 수 있는 형태로 공개됐다. 하지만 공개 일주일 뒤 온라인 커뮤니티에 LLaMA 모델 데이터가 유출되기도 했다.
그런데 한 엔지니어가 LLaMA를 사용한 추론을 맥OS와 리눅스, 윈도에서 동작시키는 프로젝트인 llama.cpp 개발을 진행하고 있으며 M1 탑재 맥북 프로에서 LLaMA를 동작시키는데 성공했다고 한다.
그는 LLaMA 13B 모델을 M1 탑재 맥에서 초당 10토큰 처리 속도로 동작 가능하다고 보고하고 있다. 더구나 맥북 프로 1대로 LLaMA 7B 모델과 오픈AI 고성능 문자 AI인 위스퍼를 동시에 실행하는 데모도 깃허브에서 공개하고 있다.
참고로 llama.cpp는 현재 맥OS와 리눅스에 대응하고 있으며 윈도는 아직 지원되지 않는다. 다만 이미 64비트 윈도 환경에서 동작한 게 보고되고 있으며 사용 메모리는 불과 5GB였다고 한다. 관련 내용은 이곳에서 확인할 수 있다.