단일 GPU로 대규모 언어 모델 처리 가능한 엔진

GPT-3 같은 대규모 언어 모델을 처리하려면 높은 계산량과 메모리가 필요하므로 보통 여러 고급 AI 가속기가 필요하다. 이 처리를 메모리 16GB짜리 엔비디아 테슬라 T4(NVIDIA Tesla T4)나 메모리 24GB인 엔비디아 지포스 RTX 3090 등 메모리 용량이 한정된 GPU 단독으로도 실행하기 위한 생성 엔진인 플렉스젠(FlexGen)이 공개됐다.

플렉스젠 모델이 요구하는 추론 리소스 사항을 단일 GPU로 끌어내 다양한 하드웨어에 유연하게 대응할 수 있도록 하기 위해 만들어진 엔진이다. 언어 모델 OPT-175B를 실행하면 다른 오프로드 기반 시스템보다 최대 100배 고속이 되는 등 특징을 갖추고 있다.

플렉스젠은 앞으로 애플 M1/M2 지원, 구글 콜라보래토리(Google Colaboratory) 대응, 챗봇 애플리케이션 지연 시간 최적화 등을 더할 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기