데이터 분석 도구 등을 제공하는 기업 데이터브릭스(Databrick)가 3월 27일 오픈소스 범용 대규모 언어모델(LLM)인 DBRX를 발표했다. 오픈 라이선스로 배포되며 월간 활성 사용자가 7억 명 이하 기업은 무료로 상업 이용이 가능하다.
DBRX는 트랜스포머 디코더를 사용하는 LLM으로 MoE(Mixture-of-Experts) 아키텍처를 채택했다. 전체 파라미터 수는 13억 2,000만 개지만 모든 입력에 반응하는 건 3억 6,000만 개 파라미터뿐이며 나머지 파라미터는 전문가로서 필요에 따라 활성화된다. MoE 아키텍처를 채택해 크기를 줄이면서도 고효율 학습과 추론을 가능케 해 성능을 높였다고 한다.
마찬가지로 MoE 아키텍처를 채용한 미스트랄(Mixtral)이나 그록-1(Grok-1)이 전문가(expert) 8개를 탑재하고 입력마다 2개를 활성화하는 데 반, DBRX는 16개를 탑재하고 입력마다 4개를 활성화한다. 전문가 조합 수가 65배나 많아져 모델 품질이 향상됐다는 설명이다.
또 DBRX는 최대 컨텍스트 길이 3만 2,000 토큰, 모두 12조 토큰 데이터로 학습됐다. 전문가가 혼재된 MoE 모델을 학습하기는 어려웠지만 효율적인 방식으로 반복 학습할 수 있는 견고한 파이프라인을 개발해 누구나 DBRX 수준 MoE 기초 모델을 처음부터 학습할 수 있게 했다는 설명이다.
언어 이해나 프로그래밍, 수학 벤치마크에서 DBRX는 LLaMA2-70B, 미스트랄, 그록-1 같은 모델보다 좋은 성과를 낸다. 또 전문가를 탑재해 범용 성능을 확보하면서도 프로그래밍 등 특화 영역 성능도 겸비할 수 있게 됐다. 또 폐쇄형 LLM과 비교해도 DBRX Instruct는 제미나이 1.0 프로나 미스트랄 미디엄 정도 수준으로 보인다.
추론 효율을 나타내는 1초당 1사용자 출력 토큰 수는 작은 모델인 미스트랄-8x7B가 최대 출력을 자랑합니다. 한편 DBRX 추론 효율은 LLaMA2-70B나 Dense-132B를 크게 웃돈다. 기초 모델(DBRX Base)과 파인튜닝 모델(DBRX Instruct)는 모두 허깅페이스에서 오픈라이선스로 배포되고 있으며 데이터브릭스 API(Foundation Model API)를 통해서도 쉽게 사용할 수 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.