테크레시피

“25배 큰 모델과 동등 성능” 마이크로소프트 파이-2 출시

마이크로소프트는 11월 개최한 마이크로소프트 이그아니트 2023(Microsoft Ignite 2023) 기간 중 발표했던 언어 모델인 파이-2(Phi-2)를 출시했다. 파라미터 수는 27억으로 소규모 모델이지만 최대 25배 모델과 동등한 성능을 발휘할 수 있다.

파이(Phi)는 마이크로소프트 리서치 기계학습팀이 개발한 트랜스포머 기반 소규모 언어 모델 시리즈다. 첫 모델인 파이-1은 13억 파라미터로 기존 소규모 언어 모델 중 파이썬 코딩에서 높은 성능을 달성했다. 파이-1을 기점으로 일반 추론과 언어 이해 능력을 높인 모델이 파이-1.5로 파라미터 수가 13억으로 작지만 5배 큰 모델과 같은 성능을 발휘하고 있다.

이번에 발표한 파이-2는 27억 파라미터 모델로 파라미터 수가 130억 미만인 기본 언어 모델 중에서 첨단 성능을 달성할 수 있었다고 한다. 그 밖에 다양한 벤치마크를 통해 최대 크기가 25배 큰 모델과 동등 이상 성능을 발휘했다. 모델 크기가 작기 때문에 학습이나 추론 등 비용을 억제할 수 있어 언어 모델을 연구하는데 적합하다고 한다.

작은 모델에서 큰 모델에 필적하는 성능을 내기 위해 마이크로소프트는 학습 데이터와 방법에 중점을 뒀다. 학습 데이터에선 과학이나 일상 생활, 심리 등 상식, 일반 지식을 가르치기 위한 데이터세트와 교육적 가치나 콘텐츠 품질에 근거한 신중하게 필터링한 인터넷 데이터세트를 사용했다고 한다. 또 먼저 파이-1.5를 학습하고 이 지식을 파이-2로 이전하는 방법으로 이용해 학습 수렴을 가속하면서 벤치마크 점수를 높이는데 성공했다. 학습 데이터량은 1.4조 토큰으로 엔비디아 A100 GPU 96개를 이용해 14일에 걸쳐 학습을 실시했다고 한다.

ModelSizeBBHCommonsense
Reasoning
Language
Understanding
MathCoding
Llama-27B40.062.256.716.521.0
13B47.865.061.934.225.4
70B66.569.267.664.138.3
Mistral7B57.266.463.746.439.4
Phi-22.7B59.268.862.061.153.7

파이-2는 RLHF나 정밀 튜닝에 의한 조정을 하지 않은 베이스 모델이라도 기존 조정이 끝난 FLaMA2-7b보다 뛰어난 성능을 보인다. 다른 모델과 비교해도 파이-2는 프로그래밍이나 수학 등 여러 단계가 필요한 추론 작업에서 뛰어난 성능을 발휘한다.

ModelSizeBBHBoolQMBPPMMLU
Gemini Nano 23.2B42.479.327.255.8
Phi-22.7B59.383.359.156.7

2023년 12월 6일 등장한 구글 제미니에서 가장 작은 모델인 제미니 나노2와 비교한 결과를 보면 파이-2는 제미니 나노2와 동등 이상 성능을 발휘한다. 단순한 물리 문제라면 어렵지 않게 풀 수 있으며 제곱근 계산에 대해서도 거의 정확하게 실시할 수 있었다고 한다. 덧붙여 파이-2는 연구 용도 라이선스로 제공되기 때문에 상용 이용은 불가능하다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독