13억 파라미터로 GPT-3.5 뛰어넘었다?

소형 LLM이 순식간에 나오는 가운데 마이크로소프트 리서치 AI 연구팀이 아카이브에 트랜스포머 기반 모델인 phi-1을 발표했다. 이 모델은 파라미터 수가 GPT-3.5 100분의 1 이하인 13억 밖에 안 되지만 테스트용 데이터세트(HumanEval)에서 GPT-3.5를 웃도는 성적을 거뒀다고 보고됐다.

phi-1은 프로그래밍 능력을 평가하기 위한 데이터세트에서 50.6%, MBPP에서 55.5% 높은 정확도를 보였다. 이 결과는 GPT-4 67%에는 이르지 않았지만 파라미터 수가 1,750억인 GPT-3.5를 상회하는 것이다. 연구팀은 다른 테스트용 데이터세트 50%를 초과하는 모델은 1,000배가 크다고 설명한다.

New LLM in town:

***phi-1 achieves 51% on HumanEval w. only 1.3B parameters & 7B tokens training dataset***

Any other >50% HumanEval model is >1000x bigger (e.g., WizardCoder from last week is 10x in model size and 100x in dataset size).

How?

***Textbooks Are All You Need*** pic.twitter.com/lNvqvjkW0w
— Sebastien Bubeck (@SebastienBubeck) June 21, 2023

이 모델은 인터넷에서 수집된 교과서 품딜 데이터세트 60억 토큰과 GPT-3.5에서 생성된 교과서 데이터세트 10억 토큰을 이용해 엔비디아 A100 8대로 불과 4일간 학습으로 만들어졌다고 한다.

연구팀은 또 phi-1과 같은 파이프라인에서 학습된 더 작은 모델 phi-1-small을 개발하고 있다. phi-1-small은 파라미터 수가 3억 5,000만으로 더 적지만 HumanEval에서 45%를 달성했다. 연구팀은 코딩에 교과서 품질 학습 데이터를 사용했을 때 예상 이상 결과를 얻었다고 밝혔다. phi-1은 곧 AI 플랫폼인 허깅페이스에서 이용 가능하게 된다고 한다.

High-quality synthetic datasets strike again. Following up on the technique of TinyStories (and many new ideas on top) at @MSFTResearch we curated textbook-quality training data for coding. The results beat our expectations.

For skeptics- model will be on HF soon, give it a try. https://t.co/LSkNuRpLjr
— Ronen Eldan (@EldanRonen) June 21, 2023

보도에선 GPT에 의해 생성된 고품질 합성 데이터세트가 없으면 이는 불가능했다고 지적됐듯 phi-1 중요성은 모델 크기를 크게 하는 대신 푸밀을 높여 고성능 모델을 얻을 수 있다는 점에 있다. 예를 들어 GPT-4와 새로운 대항마로 눈길을 끄는 오픈소스 모델인 오르카(Orca)는 파라미터 수가 130억으로 비교적 경량이지만 GPT-4 데이터로 학습해 오픈AI 제품을 넘는 벤치마크 결과를 보였다.

한편 AI가 생성한 정보를 AI 학습에 이용하는 방법에는 우려도 제기된다. 지난 5월 공개된 논문에선 다른 LLM 데이터로 학습해 발생하는 데이터 포이즈닝에 의해 새로운 모델 정밀도가 저하된다는 게 지적됐다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기