테크레시피

13억 파라미터로 GPT-3.5 뛰어넘었다?

소형 LLM이 순식간에 나오는 가운데 마이크로소프트 리서치 AI 연구팀이 아카이브에 트랜스포머 기반 모델인 phi-1을 발표했다. 이 모델은 파라미터 수가 GPT-3.5 100분의 1 이하인 13억 밖에 안 되지만 테스트용 데이터세트(HumanEval)에서 GPT-3.5를 웃도는 성적을 거뒀다고 보고됐다.

phi-1은 프로그래밍 능력을 평가하기 위한 데이터세트에서 50.6%, MBPP에서 55.5% 높은 정확도를 보였다. 이 결과는 GPT-4 67%에는 이르지 않았지만 파라미터 수가 1,750억인 GPT-3.5를 상회하는 것이다. 연구팀은 다른 테스트용 데이터세트 50%를 초과하는 모델은 1,000배가 크다고 설명한다.

이 모델은 인터넷에서 수집된 교과서 품딜 데이터세트 60억 토큰과 GPT-3.5에서 생성된 교과서 데이터세트 10억 토큰을 이용해 엔비디아 A100 8대로 불과 4일간 학습으로 만들어졌다고 한다.

연구팀은 또 phi-1과 같은 파이프라인에서 학습된 더 작은 모델 phi-1-small을 개발하고 있다. phi-1-small은 파라미터 수가 3억 5,000만으로 더 적지만 HumanEval에서 45%를 달성했다. 연구팀은 코딩에 교과서 품질 학습 데이터를 사용했을 때 예상 이상 결과를 얻었다고 밝혔다. phi-1은 곧 AI 플랫폼인 허깅페이스에서 이용 가능하게 된다고 한다.

보도에선 GPT에 의해 생성된 고품질 합성 데이터세트가 없으면 이는 불가능했다고 지적됐듯 phi-1 중요성은 모델 크기를 크게 하는 대신 푸밀을 높여 고성능 모델을 얻을 수 있다는 점에 있다. 예를 들어 GPT-4와 새로운 대항마로 눈길을 끄는 오픈소스 모델인 오르카(Orca)는 파라미터 수가 130억으로 비교적 경량이지만 GPT-4 데이터로 학습해 오픈AI 제품을 넘는 벤치마크 결과를 보였다.

한편 AI가 생성한 정보를 AI 학습에 이용하는 방법에는 우려도 제기된다. 지난 5월 공개된 논문에선 다른 LLM 데이터로 학습해 발생하는 데이터 포이즈닝에 의해 새로운 모델 정밀도가 저하된다는 게 지적됐다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사