스탠포드대학, GPT-3.5급 구축 가능한 AI 모델 공개

스탠포드대학 연구팀이 메타 대규모 언어 모델인 LLaMA 7B 모델에 미세 조정을 실시한 오픈소스로 더 좋은 명령 추종성을 실현한 대규모 언어 모델인 알파카 7B(Alpaca 7B)를 공개했다. 알파카를 이용하면 GPT-3.5와 비슷한 동작을 훨씬 작은 환경에서 간단하고 저렴하게 재현할 수 있다.

스탠포드대학에 따르면 GPT-3.5(text-davinci-003)와 챗GPT, 클로드(Claude), 빙챗(Bing Chat) 등 언어 모델이 강해지는 가운데 아직도 많은 결함이 남아 있다고 한다. 이 문제 해결에 대한 최대한 진보에는 학계 관여가 필요하지만 text-davinci-003 같은 클로즈드 모델에 필적하는 기능을 갖춘 오픈소스 모델이 없기 때문에 학게에서 명령 추종 모델을 연구하는 건 어려웠다고 한다.

따라서 스탠포드대학은 공개된 데이터세트만으로 학습을 실시한 메타 대규모 언어 모델인 LLaMA 7B 모델을 기반으로 미세 조정을 실시해 알파카라는 언어 모델을 개발, 공개한 것. 미세 조정에는 메모리가 80GB인 엔비디아 A100 8대를 이용해 3시간 걸렸다고 한다. 이는 많은 클라우드 컴퓨팅 제공 업체에서 100달러 미만으로 이용 가능하다.

알파카는 text-davinci-003와 비슷한 행동을 많이 보이지만 놀랍도록 작고 간단하며 저렴하게 재현 가능하다는 특징이 있다. 웹 데모도 사이트를 통해 써볼 수 있다. 또 알파카 이용은 학술 목적에 한정되어 상용 이용은 금지되어 있다. 이는 기반이 된 LLaMA가 비상업적 라이선스라는 걸 의미하며 명령 데이터는 오픈AI와 경쟁하는 모델 개발을 금지하는 text-davinci-003을 기반으로 하며 안전 대책이 충분하지 않고 일반 대중화할 수 없는 것 등 3가지 이유에 의한 것이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.