마이크로소프트는 11월 개최한 마이크로소프트 이그아니트 2023(Microsoft Ignite 2023) 기간 중 발표했던 언어 모델인 파이-2(Phi-2)를 출시했다. 파라미터 수는 27억으로 소규모 모델이지만 최대 25배 모델과 동등한 성능을 발휘할 수 있다.
파이(Phi)는 마이크로소프트 리서치 기계학습팀이 개발한 트랜스포머 기반 소규모 언어 모델 시리즈다. 첫 모델인 파이-1은 13억 파라미터로 기존 소규모 언어 모델 중 파이썬 코딩에서 높은 성능을 달성했다. 파이-1을 기점으로 일반 추론과 언어 이해 능력을 높인 모델이 파이-1.5로 파라미터 수가 13억으로 작지만 5배 큰 모델과 같은 성능을 발휘하고 있다.
이번에 발표한 파이-2는 27억 파라미터 모델로 파라미터 수가 130억 미만인 기본 언어 모델 중에서 첨단 성능을 달성할 수 있었다고 한다. 그 밖에 다양한 벤치마크를 통해 최대 크기가 25배 큰 모델과 동등 이상 성능을 발휘했다. 모델 크기가 작기 때문에 학습이나 추론 등 비용을 억제할 수 있어 언어 모델을 연구하는데 적합하다고 한다.
작은 모델에서 큰 모델에 필적하는 성능을 내기 위해 마이크로소프트는 학습 데이터와 방법에 중점을 뒀다. 학습 데이터에선 과학이나 일상 생활, 심리 등 상식, 일반 지식을 가르치기 위한 데이터세트와 교육적 가치나 콘텐츠 품질에 근거한 신중하게 필터링한 인터넷 데이터세트를 사용했다고 한다. 또 먼저 파이-1.5를 학습하고 이 지식을 파이-2로 이전하는 방법으로 이용해 학습 수렴을 가속하면서 벤치마크 점수를 높이는데 성공했다. 학습 데이터량은 1.4조 토큰으로 엔비디아 A100 GPU 96개를 이용해 14일에 걸쳐 학습을 실시했다고 한다.
Model | Size | BBH | Commonsense Reasoning | Language Understanding | Math | Coding |
---|---|---|---|---|---|---|
Llama-2 | 7B | 40.0 | 62.2 | 56.7 | 16.5 | 21.0 |
13B | 47.8 | 65.0 | 61.9 | 34.2 | 25.4 | |
70B | 66.5 | 69.2 | 67.6 | 64.1 | 38.3 | |
Mistral | 7B | 57.2 | 66.4 | 63.7 | 46.4 | 39.4 |
Phi-2 | 2.7B | 59.2 | 68.8 | 62.0 | 61.1 | 53.7 |
파이-2는 RLHF나 정밀 튜닝에 의한 조정을 하지 않은 베이스 모델이라도 기존 조정이 끝난 FLaMA2-7b보다 뛰어난 성능을 보인다. 다른 모델과 비교해도 파이-2는 프로그래밍이나 수학 등 여러 단계가 필요한 추론 작업에서 뛰어난 성능을 발휘한다.
Model | Size | BBH | BoolQ | MBPP | MMLU |
---|---|---|---|---|---|
Gemini Nano 2 | 3.2B | 42.4 | 79.3 | 27.2 | 55.8 |
Phi-2 | 2.7B | 59.3 | 83.3 | 59.1 | 56.7 |
2023년 12월 6일 등장한 구글 제미니에서 가장 작은 모델인 제미니 나노2와 비교한 결과를 보면 파이-2는 제미니 나노2와 동등 이상 성능을 발휘한다. 단순한 물리 문제라면 어렵지 않게 풀 수 있으며 제곱근 계산에 대해서도 거의 정확하게 실시할 수 있었다고 한다. 덧붙여 파이-2는 연구 용도 라이선스로 제공되기 때문에 상용 이용은 불가능하다. 관련 내용은 이곳에서 확인할 수 있다.