
프랑스 AI 스타트업인 미스트랄AI(Mistral AI)와 AI 스타트업 올핸즈AI(All Hands AI)가 공동으로 소프트웨어 개발을 위해 구축된 에이전트형 오픈 언어모델인 데브스트랄(Devstral)을 출시했다고 발표했다. PC에서 로컬 동작이 가능할 정도로 경량이면서도 GPT-4.1-mini나 클로드 3.5 하이쿠와 견줄 만한 성능을 갖고 있다고 한다.
데브스트랄은 미스트랄 스몰 3.1을 기반으로 한 에이전트형 대규모 언어모델(LLM)이다. 기존 LLM이 함수 작성이나 코드 완성 같은 기초적인 코딩 작업과는 달리 실제 소프트웨어 공학 문제 해결에 특화되어 설계됐다.
미스트랄AI에 따르면 데브스트랄은 대규모 코드베이스 내에서의 코드 맥락화, 서로 다른 컴포넌트 간 관계성 파악, 복잡한 함수 내 미세한 버그 식별 등 실제 개발 현장에서 필요한 고도의 작업을 수행할 수 있다고 한다.
파라미터 크기는 단 236억으로 RTX 4090 탑재 PC나 RAM 32GB을 탑재한 맥에서 동작하는 경량성을 가지고 있어 로컬 배포나 디바이스상에서의 사용을 상정하고 있는 게 특징이다. 올핸즈AI가 제공하는 오픈핸즈(OpenHands) 같은 코딩 플랫폼과 결합해 로컬 코드베이스와 상호작용하며 빠른 과제 해결을 제공할 수 있다.
데브스트랄이 비교적 저렴한 로컬 환경에서 동작 가능하다는 건 기업이 자사 인프라 내에서 코드를 처리해 외부로의 정보 누출 위험을 완전히 배제할 수 있다는 의미다. 미스트랄AI는 엄격한 컴플라이언스 요구사항에 대응해야 하는 기업에게 데브스트랄은 이상적인 솔루션이 될 것이라고 밝혔다.
데브스트랄은 실제 깃허브 이슈 해결을 위한 훈련을 받았으며 수동으로 정확성이 검증된 이슈 500건으로 구성된 데이터세트(SWE-Bench Verified)로 평가되고 있다. 미스트랄AI에 따르면 데브스트랄은 벤치마크에서 46.8% 점수를 달성해 기존 오픈소스 최고 성능 모델을 6% 이상 상회하는 결과를 보였다고 한다.
미스트랄AI는 올핸즈AI가 제공하는 오픈핸즈라는 동일한 플랫폼에서 비교 벤치마크를 실시한 결과 데브스트랄이 파라미터 수 671억이라는 훨씬 대규모 모델인 Deepseek-V3-0324나 Qwen3 232B-A22B를 상회하는 성능을 발휘했다고 어필했다.
또 클로즈드소스 모델과의 비교 결과에서는 데브스트랄이 오픈AI GPT-4.1-mini를 20% 이상 상회하는 성능을 보였으며 클로드 3.5 하이쿠나 SWE-smith-LM 32B와 동등한 수준 40%대 전반 성능을 달성했다고 한다. 이 비교에서는 각 모델에 최적화된 커스텀 스캐폴드를 포함한 다양한 평가 환경이 사용됐으며 데브스트랄은 다양한 조건 하에서도 안정된 고성능을 유지할 수 있다고 한다.
데브스트랄은 오픈 모델로서 아파치 2.0 라이선스 하에 무료 공개되고 있으며 허깅페이스 등에서 내려 받을 수 있다. 또 미스트랄AI 플랫폼상에서는 devstral-small-2505라는 이름으로 API가 제공되고 있으며 입력 토큰 100만 토큰당 0.1달러, 출력 토큰 100만 토큰당 0.3달러라는 종량 과금제가 적용되고 있다. 또 기업 대상으로 파인튜닝이나 사전 학습 등 고도 서비스도 제공되고 있으며 가격은 협의가 필요하다. 관련 내용은 이곳에서 확인할 수 있다.