GPT-3.5와 동등…무료로 상용 이용 가능한 LLM 나왔다

정용환 기자

2023.12.14

구글 딥마인드나 메타 연구자에 의해 설립된 AI 기업인 미스트랄AI(Mistral AI)가 모델 크기를 축소하고 비용 성능이 뛰어난 추론을 할 수 있는 대규모 언어 모델인 믹스트랄 8x7B(Mixtral 8x7B)를 출시했다. 벤치마크 비교에서 GPT-3.5나 LLaMA2 70B를 웃도는 성능을 낸다는 설명이다.

미스트랄AI는 2023년 5월 설립된 프랑스 AI 스타트업. 9월에는 파라미터 수를 70억으로 억제하면서 LLaMA2 13B나 LLaMA1 34B를 웃도는 성능을 갖춘 대규모 언어 모델인 미스트랄 7B(Mistral 7B)를 내놓기도 했다. 올해 12월 실시한 자금 조달에선 평가액 3조 원으로 빠르게 규모를 확대하고 있다.

이런 미스트랄AI가 12월 11일 새로운 모델인 믹스트랄 8x7B를 내놓은 것. 믹스트랄 8x7B는 미스트랄7B 모델을 기반으로 트랜스포머 내 피드포워드(FeedForward) 블록을 8배 크기로 확장한 모델이다. 모델 일부만 8배가 됐기 때문에 전체 파라미터 수는 560억이 아니라 467억이다.

또 추론에서 매번 모든 피드포워드 블록을 사용하는 대신 블록 8개 중 2개만 토큰 처리에 이용해 토큰 처리에 이용되는 파라미터 수를 129억으로 억제했다. 이 구조를 이용해 129억 파라미터와 같은 속도, 동일 비용으로 추론을 실시하는 게 가능하다.

믹스트랄 8x7B 사양을 보면 3만 2,000토큰 컨텍스트 처리가 가능하며 영어, 불어, 이탈리아어, 독일어, 스페인어에 대응하며 코드 생성에 있어 뛰어난 성능을 발휘할 수 있다. 대규모 언어 모델 평가에 이용하는 벤치마크에서 믹스트랄 8x7B는 LLaMA2 70B, GPT-3.5와 같거나 그 이상 평가를 받ᄋᆞᆻ다. 매개변수 수가 적고 추론 비용이 낮기 때문에 상당히 비용 대비 성능이 높다. 그 뿐 아니라 믹스트랄 8x7B는 환각과 편견에 대한 개선이 이뤄졌으며 많은 지표에서 LLaMA2 70B 모델을 능가했다.

동시에 다언어 대응도 이뤄지고 있어 영어 외에 불어, 이탈리아어, 독일어, 스페인어를 LLaMA2 70B 모델 이상으로 취급할 수 있다. 믹스트랄 8x7B는 아파치 2.0 라이선스가 부여된 오픈소스 모델로 자유롭게 변경이나 상용 이용이 가능하다. 모델 자체가 허깅페이스에서 호스팅되고 있으며 미스트랄AI의 미스트랄-스몰 엔드포인트를 통해 이용할 수 있다. 다만 현재 미스트랄-스몰 엔드포인트는 베타 버전으로 대기목록에 등록해서 차례를 기다려야 한다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사