상용 이용도 가능한 오픈소스 대규모 언어 모델

스태빌리티AI(Stability AI)가 오픈소스 대규모 언어 모델인 스테이블LM(StableLM)을 출시했다. 알파 버전은 파라미터 수 30억과 70억 모델이 준비되며 미래에는 150억에서 650억 모델도 준비할 예정이라고 한다. 스테이블LM은 크리에이티브 커먼스 라이선스(Creative Commons By-SA-4.0)에 따라 상용 이용도 가능하다는 게 특징이기도 하다.

스테이블LM은 언어 모델용 데이터 세트인 더파일(The Pile) 3배에 해당하는 1조 5,000억 개 토큰을 포함한 새로운 데이터세트로 학습되고 있다고 한다. 모델이 릴리스된 스테이블LM 파라미터 수는 30억과 70억이며 현재 150억, 300억, 650억 모델을 개발 중이다. 여기에 파라미터 수 1,750억 모델 개발도 구상 중이라고 한다.

또 회사 측은 스테이블LM에서 투명성, 액세서빌리티, 사용자에게 협력적이어야 한다는 점 등을 콘셉트로 내걸고 있으며 모델 공개도 크리에이티브 커먼스 라이선스 하에서 상용 이용을 인정하고 있다. 스테이블LM은 AI용 리포지토리 서비스인 허깅페이스에 데모 버전이 공개되어 있다.

보도에 따르면 언어 모델 멀티태스킹 성능 측정을 위해 만들어진 MMLU 벤치마크에서 스테이블LM 벤치카르르 실시한 결과 파라미터 수 30억 모델 평균 정밀도는 25.6%로 구글이 개발한 오픈소스 언어 모델(Flan-T5) 파라미터 수 8,000만 모델보다 낮은 결과를 보였다. Flan-T5에서 같은 파라미터 수 30억 모델이라면 평균 정밀도가 49.3%인 만큼 스테이블LM 정밀도는 상당히 낮다고 한다. 하지만 스테이블LM과 달리 Flan-T5는 미세 조정된 모델이기 때문에 벤치마크 점수를 단순 비교해선 안 된다는 지적도 있다. 관련 내용은 이곳에서 확인할 수 있다.