스태빌리티AI, 챗GPT급 성능 오픈소스 LLM 발표해

이미지 생성 AI인 스테이블 디퓨전 등 개발로 알려진 스테빌리티AI가 챗GPT에 사용되는 대규모 언어 모델인 GPT-3.5에 필적하는 성능을 지닌 대규모 언어 모델 프리윌리(FreeWilly) 1과 2를 공개했다.

스테빌리티AI는 7월 21일 프리윌리2를 발표했다. 프리윌리1은 메타 대규모 언어 모델인 LLaMA-65B를 기반으로 SFT를 이용해 합성 생성된 데이터세트에서 미세 조정이 이뤄지고 있다. 한편 프리윌리2는 LLaMA2 70B를 활용해 개발된 대규모 언어 모델이다.

프리윌리 학습에는 마이크로소프트 논문(Orca: Progressive Learning from Complex Explanation Traces of GPT-4)에서 설명하는 오르카 메소드(Orca Method)를 사용하고 있다. 오르카 메소드는 큰 언어 모델 출력 스타일을 모방하는 대신 작은 모델에게 큰 언어 모델 단계적 추론 과정을 가르친다.

스테빌리티AI에 다르면 개발팀이 선택한 프롬프트와 언어 모델로 데이터세트 60만점을 작성했지만 이 양은 오르카가 사용한 데이터세트 불과 10% 정도였다고 한다. 이로 인해 필요한 훈련량이 크게 줄어들었다.

프리윌리2 성능은 일부 작업에선 GPT-3.5 성능과 비교할 수 있다고 한다. 스테빌리티AI 연구자가 독자 수행한 벤치마크 테스트 결과를 보면 자연 언어 추론 작업(HellaSwag)에선 프리윌리2가 86.4%, GPT-3.5를 탑재한 챗GPT 85.5%라는 성능을 웃도는 것 외에도 대규모 언어 모델 벤치마크 소프트웨어(AGIEval) 성능 비교해선 미국 대학 입시 시험(SAT Math)에서 수학을 빼고 GPT-.35와 동등 또는 그 이상 성능을 프리윌리2가 기록하고 있다.

스테빌리티AI 측은 프리윌리1과 2는 오픈소스 대규모 언어 모델 분야에서 새로운 기준이 될 것이라며 새로운 AI 애플리케이션에 영감을 줄 것으로 기대한다고 밝혔다. 스테빌리티AI는 프리윌리에 대해 책임 있는 릴리스에 중점을 둔다고 강조하고 있으며 이런 모델은 사내 전문팀의 잠재적 유해성 테스트를 받고 있다고 밝혔다. 또 안전 대책을 더 강화하기 위해 외부 피드백을 적극 받아들이고 있다. 관련 내용은 이곳에서 확인할 수 있다.