단일 GPU로 대규모 언어 모델 처리 가능한 엔진

이원영 기자

2023.03.07

GPT-3 같은 대규모 언어 모델을 처리하려면 높은 계산량과 메모리가 필요하므로 보통 여러 고급 AI 가속기가 필요하다. 이 처리를 메모리 16GB짜리 엔비디아 테슬라 T4(NVIDIA Tesla T4)나 메모리 24GB인 엔비디아 지포스 RTX 3090 등 메모리 용량이 한정된 GPU 단독으로도 실행하기 위한 생성 엔진인 플렉스젠(FlexGen)이 공개됐다.

플렉스젠 모델이 요구하는 추론 리소스 사항을 단일 GPU로 끌어내 다양한 하드웨어에 유연하게 대응할 수 있도록 하기 위해 만들어진 엔진이다. 언어 모델 OPT-175B를 실행하면 다른 오프로드 기반 시스템보다 최대 100배 고속이 되는 등 특징을 갖추고 있다.

플렉스젠은 앞으로 애플 M1/M2 지원, 구글 콜라보래토리(Google Colaboratory) 대응, 챗봇 애플리케이션 지연 시간 최적화 등을 더할 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사