기존보다 처리율 3배 높인 대규모언어모델 나왔다

이원영 기자

2024.04.01

AI21랩스(AI21 Labs)가 영어와 불어, 스페인어, 포르투갈어를 지원하는 대규모 언어 모델인 잠바(Jamba)를 발표했다. 잠바는 기존 트랜스포머 모델에 SSM(State Space Model) 아키텍처를 결합한 SSM-트랜스포머(SSM-Transformer) 모델이다.

잠바는 최대 140K 토큰 그러니까 10만 5,000단어를 적어도 80GB 메모리를 가진 단일 GPU에서 처리할 수 있는 대규모 언어 모델. 코어 모델 일부에 프린스턴대와 카네기멜론대에서 개발한 오픈소스 모델인 맘바(Mamba)가 사용됐다.

잠바가 지닌 특징은 트랜스포머 아키텍처에 SSM이라고 불리는 아키텍처를 결합한 SSM-트랜스포머 아키텍처를 채택했다는 것. SSM은 시계열 데이터나 연속 데이터를 다루기 위한 확률 모델 일종으로 트랜스포머에 비해 계산 효율이 높고 긴 시퀀스 데이터 처리에 적합하다. 잠바가 채택한 SSM-트랜스포머 아키텍처는 이런 SSM과 트랜스포머 하이브리드로 동일 크기 트랜스포머 모델과 비교해 긴 컨텍스트에 대해 3배 스루풋을 실현할 수 있다.

또 잠바에서는 SSM-트랜스포머 아키텍처에 더해 MoE(Mixture-of-Experts) 레이어를 채택했다. MoE 레이어는 여러 신경망을 결합해 모델 전체 표현력과 효율성을 높이는 방식으로 AI21랩스는 잠바에 도입해 5,200억 개 파라미터 가운데 1,200억 개만 사용하면서도 높은 성능을 달성했다고 보고했다.

여러 벤치마크에서 잠바를 LLaMA 2-13B, LLaMA 2-70B, Gemma-7B, Mixtral-8x7B 등과 비교하자 추론 벤치마크 4개 중 3개에서 다른 모델보다 높은 성능을 보였다고 한다.

잠바는 아파치 2.0 라이선스 하에 허깅페이스에 공개되어 있으며 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼 내 엔비디아 NIM 추론 마이크로서비스를 통해 API로 액세스할 수 있다. 지금은 상용화를 위한 안전장치가 갖춰지지 않은 연구 모델로 릴리스됐지만 AI21랩스는 2024년 4월 중 미세 조정된 더 안전한 버전을 출시할 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사