테크레시피

LLaMA 이용한 언어 모델 도구, 6GB 메모리로?

지난 2월 메타가 발표한 대규모 언어 모델인 LLaMA는 기존 GPT-3보다 소규모이면서 GPT-3에 필적하는 성능을 일반 GPU 환경에서도 낼 수 있게 되어 3월 한 엔지니어가 애플실리콘 탑재 맥에서 LLaMA를 동작시키는 flama.cpp을 공개하기도 했다. 이런 가운데 프로그래머인 저스틴 타니가 flama.cpp가 동작할 때 메모리 사용량을 줄이는 업데이트를 실시해 LLaMA 일부 모델에 이르러선 6GB 미만 RMA으로 동작하는 게 보고되고 있다.

LLaMA는 메타 AI 연구 조직인 메타AI리서치가 발표한 대규모 언어 모델이다. 대규모 언어 모델 규모를 나타내는 파라미터 수는 70억에서 650억으로 LLaMA 13B 모델 벤치마크 테스트 결과는 파라미터 수 1,750억인 GPT-3에 필적했다고 보고되고 있다.

또 LLaMA는 단독 GPU에서도 문제없이 동작하기 때문에 소비자 수준 하드웨어 환경에서도 챗GPT와 같은 대화형 AI를 움직일 가능성도 시사되고 있었다.

이후 LLaMA를 이용한 추론을 맥OS나 리눅스, 윈도에서 동작시키는 프로젝트인 flama.cpp 개발을 진행해 M1 탑재 맥북프로로 LLaMA를 동작시키는 데 성공했다고 보고했다. 개발자에 따르면 LLaMA 13B 모델을 M1 탑재 맥으로 초당 10토큰 처리 속도로 동작 가능하다고 한다.

3월 31일에는 다시 llama.cpp에 C++ 소스 코드 업데이트를 추가했다. 업데이트 결과 실행할 때 메모리 사용량이 대폭 줄어 기존에는 30GB 필요했던 LLaMA 13B 모델 메모리 사용량이 시스템 메모리 사용량을 포함해 불과 5.8GB로 문제없이 작동하는 게 보고됐다. 이는 실제 추론에 필요한 부분 가중치만 사용자 메모리에 로딩되게 되어 기존보다 적은 메모리 사용량을 실현한 것이다.

이 변경으로 추론 커맨드 로딩이 최대 기존 100배 고속화되고 2배 이상 모델을 안정적으로 탑재할 가능성이 있다며 추론 처리를 다수 동시 진행할 수 있다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독