
마이크로소프트가 소규모 추론 모델 Phi-4-reasoning, Phi-4-reasoning-plus, Phi-4-mini-reasoning을 발표했다. Phi-4-reasoning은 소규모 언어 모델인 Phi-4에 교사 지도 미세 조정(SFT)을 실시해 명시적으로 추론 능력을 향상시킨 모델이다.
Phi-4는 2024년 12월 출시된 파라미터 수 140억(14B) 소규모 언어 모델. 이번에 발표된 Phi-4-reasoning은 이런 Phi-4를 기본 모델로 적절한 복잡성과 다양성을 가진 신중하게 선별된 프롬프트와 o3-mini를 사용해 생성된 긴 고품질 추론 과정을 포함한 답변, 수학과 코딩 등 다양한 분야에 걸친 140만 개 이상 프롬프트와 응답을 사용해 SFT를 실시해 명시적으로 추론 능력을 향상시킨 14B 파라미터 오픈 웨이트 추론 모델이다.
또 Phi-4-reasoning-plus는 수학적 추론에 초점을 맞추고 있으며 Phi-4-reasoning에 6,400개 수학 문제를 사용해 강화 학습을 적용한 모델이다. 이 강화 학습 단계에서는 결과 기반 보상 함수를 사용해 수학 문제에 대해 정확한 해답을 생성하는 모델 능력을 더 향상시켰다고 한다. Phi-4-reasoning-plus는 Phi-4-reasoning보다 출력 길이가 1.5배 길고 더 많은 추론 단계를 포함해 높은 정확도 답변을 실현하지만 그만큼 추론 시 계산 리소스도 더 많이 사용한다.
벤치마크 결과를 보면 Math-500과 GPQA Diamond에서는 오픈AI o1-mini를 능가했다. 벤치마크는 모두 수학이나 과학, 코딩 성능을 측정하는 것으로 Phi-4-reasoning과 Phi-4-reasoning-plus의 높은 추론 능력이 입증됐다.
Phi-4-mini-reasoning은 더 콤팩트한 추론 모델에 대한 수요에 부응하도록 설계됐으며 파라미터 수는 38억(3.8B)으로 비교적 경량 모델이다. Phi-4-mini와 같은 아키텍처를 공유하며 DeepSeek-R1 등에서 생성된 콘텐츠로 미세 조정됐다. 메모리나 계산이 제약된 환경에서 고급 수학적 추론 능력이 필요한 애플리케이션을 위해 설계됐기 때문에 교육 애플리케이션이나 임베디드 앱, 또는 엣지/모바일 시스템 응용에 적합하다.
마이크로소프트는 또 Phi-4-reasoning이 안전성을 중시하는 점을 강조하며 자사가 책임 있는 AI 원칙을 준수한다고 밝혔다.
Phi-4-reasoning, Phi-4-reasoning-plus, Phi-4-mini-reasoning은 AI 플랫폼인 허깅페이스에서 공개됐다. 또 Phi-4-reasoning과 Phi-4-mini-reasoning은 애저 AI 파운드리에서도 이용 가능하며 Phi-4-reasoning-plus는 곧 애저 AI 파운드리에 도입될 예정이다.
Phi-4-reasoning과 Phi-4-mini-reasoning 모델은 Phi Silica라고 불리는 NPU 최적화 버전으로 코파일럿+ PC에 통합될 예정이다. Phi Silica는 코파일럿+ PC에서 이용 가능한 AI 기능을 로컬에서 실행하기 위해 사용되고 있으며 Phi-4-reasoning 도입으로 더 빠른 응답과 전력 효율이 좋은 토큰 처리가 가능해질 것이라는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.