AI 개발 기업 미스트랄AI(Mistral AI)가 엔비디아와 협력하여 AI 모델인 미스트랄 네모(Mistral NeMo)를 개발했다고 발표했다. 미스트랄 네모는 다양한 벤치마크에서 젬마 2 9B와 LLaMA 3 8B를 능가하는 성능을 보여주고 있으며 엔비디아 AI 플랫폼에서 사용할 수 있을 뿐 아니라 모델 데이터가 오픈소스로 공개되어 있다.
미스트랄 네모는 120억 개 파라미터를 가진 비교적 소형 AI 모델. 미스트랄 네모와 젬마 2 9B, LLaMA 3 8B 성능을 비교한 표를 보면 미스트랄 네모 컨텍스트창은 12만 8,000으로 다른 두 모델에 비해 더 큰 프롬프트를 처리할 수 있다. 또 대부분 벤치마크에서 젬마 2 9B와 LLaMA 3 8B를 앞서는 점수를 기록했다. 더불어 미스트랄 네모는 양자화를 고려해 설계되어 FP8에서도 성능 저하를 억제하면서 추론 처리를 실행할 수 있다고 한다.
미스트랄 네모는 다국어 지원 모델로 개발됐으며 그 중에서도 한국어, 일본어, 영어, 중국어, 아랍어, 이탈리아어, 스페인어, 독일어, 힌디어, 프랑스어, 포르투갈어에서 뛰어난 성능을 발휘한다. 다국어 성능을 측정하는 벤치마크에서는 대부분 테스트에서 LLaMA 3 8B를 상회하는 점수를 기록했다.
또 미스트랄 네모는 새롭게 개발된 토크나이저 Tekken을 도입해 토큰화 효율성이 향상됐니다. 아랍어는 3.02배, 말레이시아어는 3.90배로 효율성이 향상됐다고 한다.
미스트랄 네모는 엔비디아 AI 플랫폼인 DGX 클라우드에서 학습 처리를 실행했으며 학습 시 AI 개발 프레임워크인 엔비디아 네모에 포함된 GPU 최적화 기술인 메가트론-LM(Megatron-LM)을 활용했다고 한다. 미스트랄 네모는 이미 엔비디아 NIM에서 사용할 수 있는 서비스로 패키지화되어 있다.
한편 미스트랄 네모 기본 모델(Mistral-Nemo-Base-2407)과 미세 조정 버전(Mistral-Nemo-Instruct-2407)이 허깅페이스에서 공개되어 있다. 라이선스는 아파치 라이선스 2.0으로 상용 애플리케이션에도 사용 가능하다. 관련 내용은 이곳에서 확인할 수 있다.