테크레시피

기존보다 처리율 3배 높인 대규모언어모델 나왔다

AI21랩스(AI21 Labs)가 영어와 불어, 스페인어, 포르투갈어를 지원하는 대규모 언어 모델인 잠바(Jamba)를 발표했다. 잠바는 기존 트랜스포머 모델에 SSM(State Space Model) 아키텍처를 결합한 SSM-트랜스포머(SSM-Transformer) 모델이다.

잠바는 최대 140K 토큰 그러니까 10만 5,000단어를 적어도 80GB 메모리를 가진 단일 GPU에서 처리할 수 있는 대규모 언어 모델. 코어 모델 일부에 프린스턴대와 카네기멜론대에서 개발한 오픈소스 모델인 맘바(Mamba)가 사용됐다.

잠바가 지닌 특징은 트랜스포머 아키텍처에 SSM이라고 불리는 아키텍처를 결합한 SSM-트랜스포머 아키텍처를 채택했다는 것. SSM은 시계열 데이터나 연속 데이터를 다루기 위한 확률 모델 일종으로 트랜스포머에 비해 계산 효율이 높고 긴 시퀀스 데이터 처리에 적합하다. 잠바가 채택한 SSM-트랜스포머 아키텍처는 이런 SSM과 트랜스포머 하이브리드로 동일 크기 트랜스포머 모델과 비교해 긴 컨텍스트에 대해 3배 스루풋을 실현할 수 있다.

또 잠바에서는 SSM-트랜스포머 아키텍처에 더해 MoE(Mixture-of-Experts) 레이어를 채택했다. MoE 레이어는 여러 신경망을 결합해 모델 전체 표현력과 효율성을 높이는 방식으로 AI21랩스는 잠바에 도입해 5,200억 개 파라미터 가운데 1,200억 개만 사용하면서도 높은 성능을 달성했다고 보고했다.

여러 벤치마크에서 잠바를 LLaMA 2-13B, LLaMA 2-70B, Gemma-7B, Mixtral-8x7B 등과 비교하자 추론 벤치마크 4개 중 3개에서 다른 모델보다 높은 성능을 보였다고 한다.

잠바는 아파치 2.0 라이선스 하에 허깅페이스에 공개되어 있으며 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼 내 엔비디아 NIM 추론 마이크로서비스를 통해 API로 액세스할 수 있다. 지금은 상용화를 위한 안전장치가 갖춰지지 않은 연구 모델로 릴리스됐지만 AI21랩스는 2024년 4월 중 미세 조정된 더 안전한 버전을 출시할 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사