테크레시피

80개 이상 언어 지원…미스트랄AI 첫 코딩용 생성형 AI

메타와 구글 딥마인드 출신 직원이 설립한 AI 개발 기업 미스트랄AI(Mistral AI)가 첫 코딩용 AI 모델인 코드스트랄(Codestral)을 발표했다. 코드스트랄은 코딩 작업 전용으로 설계된 생성 AI 모델로 소프트웨어 개발자가 고급 AI 애플리케이션을 설계하는 데 도움이 된다.

코드스트랄은 파이썬, 자바, C, C++, 자바스크립트, Bash 등 가장 인기 있는 언어를 포함한 80개 이상 프로그래밍 언어에 대한 다양한 데이터세트로 학습된 AI 모델이다. 스위프트나 포트란 등 더 구체적인 프로그래밍 언어에서도 뛰어난 성능을 발휘한다. 광범위한 언어 기반으로 코드스트랄은 다양한 코딩 환경과 프로젝트에서 개발자를 지원할 수 있다.

코드스트랄은 코딩을 완성하거나 중간 보완 메커니즘을 사용해 부분적으로 코드를 보완할 수 있다. 코드스트랄을 사용하면 개발자는 코딩 기술을 향상시킬 뿐만 아니라 오류나 버그 위험도 줄일 수 있다고 한다. 또 코드스트랄은 코드에 관한 질문에 영어로 답변할 수 있다.

코드스트랄 컨텍스트 윈도 그러니까 AI 모델이 한 번에 처리할 수 있는 토큰 수는 기존 코딩용 AI와 비교해 매우 큰 32k 그러니까 3만 2,000토큰이다. 다른 AI 모델과 코딩 성능 벤치마크 점수를 비교한 테스트에서는 파이썬 코딩 성능을 측정하기 위해 HumanEval, MBPP, CruxEval-O, RepoBench 4가지, SQL 코딩 성능 측정에는 Spider, 여러 프로그래밍 언어(Python, C++, bash, Java, PHP, Typescript, C#) 평균 점수 비교에는 HumanEval을 사용했다. 그 결과 모든 점수에서 코드스트랄이 최고는 아니지만 거의 모든 벤치마크에서 최상위 점수를 기록했다.

미스트랄AI는 코드스트랄을 공개했다고 표현하고 있지만 어떤 상업 활동에서도 코드스트랄과 산출물 사용을 금지하고 있다. 라이선스에는 회사 업무 맥락에서 직원이 내부적으로 코드스트랄을 사용하는 것도 명시적으로 금지되어 있다. 이 이유에 대해 보도에선 코드스트랄이 저작권으로 보호된 콘텐츠로 부분적으로 학습됐을 가능성이 있기 때문이라고 지적하고 있다. 미스트랄AI는 이에 대해 언급하지 않았지만 보도에선 미스트랄AI 이전 학습 데이터세트에 저작권으로 보호된 데이터가 포함되어 있었다고 지적하고 있다.

한편 보도에선 220억 개 파라미터를 가진 코드스트랄을 실행하려면 고성능 PC가 필요하다며 벤치마크에 따르면 경쟁사 제품보다 뛰어나지만 압도적인 차이는 아니라고 지적한다. 코드스트랄은 대부분 개발자에게 비현실적이며 성능 향상 측면에서도 점진적일 뿐이지만 프로그래밍 도우미로 코드 생성 모델에 의존하는 것에 관한 논의를 활성화시키는 역할을 할 것이라는 평가다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독