테크레시피

미스트랄AI가 엔비디아 손잡고 발표한 AI 모델

AI 개발 기업 미스트랄AI(Mistral AI)가 엔비디아와 협력하여 AI 모델인 미스트랄 네모(Mistral NeMo)를 개발했다고 발표했다. 미스트랄 네모는 다양한 벤치마크에서 젬마 2 9B와 LLaMA 3 8B를 능가하는 성능을 보여주고 있으며 엔비디아 AI 플랫폼에서 사용할 수 있을 뿐 아니라 모델 데이터가 오픈소스로 공개되어 있다.

미스트랄 네모는 120억 개 파라미터를 가진 비교적 소형 AI 모델. 미스트랄 네모와 젬마 2 9B, LLaMA 3 8B 성능을 비교한 표를 보면 미스트랄 네모 컨텍스트창은 12만 8,000으로 다른 두 모델에 비해 더 큰 프롬프트를 처리할 수 있다. 또 대부분 벤치마크에서 젬마 2 9B와 LLaMA 3 8B를 앞서는 점수를 기록했다. 더불어 미스트랄 네모는 양자화를 고려해 설계되어 FP8에서도 성능 저하를 억제하면서 추론 처리를 실행할 수 있다고 한다.

미스트랄 네모는 다국어 지원 모델로 개발됐으며 그 중에서도 한국어, 일본어, 영어, 중국어, 아랍어, 이탈리아어, 스페인어, 독일어, 힌디어, 프랑스어, 포르투갈어에서 뛰어난 성능을 발휘한다. 다국어 성능을 측정하는 벤치마크에서는 대부분 테스트에서 LLaMA 3 8B를 상회하는 점수를 기록했다.

또 미스트랄 네모는 새롭게 개발된 토크나이저 Tekken을 도입해 토큰화 효율성이 향상됐니다. 아랍어는 3.02배, 말레이시아어는 3.90배로 효율성이 향상됐다고 한다.

미스트랄 네모는 엔비디아 AI 플랫폼인 DGX 클라우드에서 학습 처리를 실행했으며 학습 시 AI 개발 프레임워크인 엔비디아 네모에 포함된 GPU 최적화 기술인 메가트론-LM(Megatron-LM)을 활용했다고 한다. 미스트랄 네모는 이미 엔비디아 NIM에서 사용할 수 있는 서비스로 패키지화되어 있다.

한편 미스트랄 네모 기본 모델(Mistral-Nemo-Base-2407)과 미세 조정 버전(Mistral-Nemo-Instruct-2407)이 허깅페이스에서 공개되어 있다. 라이선스는 아파치 라이선스 2.0으로 상용 애플리케이션에도 사용 가능하다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독