“GPT-4 2배 길이 문장을?” 상용 가능한 오픈소스 언어 모델

머신러닝 트레이닝을 위한 시스템을 제공하는 기업인 모자익ML(MosaicML)이 오픈소스로 상용 이용이 가능한 대규모 언어 모델 LLM 새로운 기준인 MPT(MosaicML Pretrained Transformer)-7B를 출시했다. MPT 기본 모델과 이 기본 모델을 기반으로 구축할 수 있는 3가지 변형도 공개되어 있다.

MPT-7B는 메타 대규모 언어 모델인 LLaMA 파라미터 수 70억 모델인 LLaMA-7B와 비슷한 품질을 확보하고 있으며 표준 태스크에선 7B∼20B 오픈소스 언어 모델을 능가하는 성능을 보여준다.

MPT-7B 변형은 일단 베이스(MPT-7B Base). 베이스는 670억 개 파라미터를 갖는 디코더 형식 변환기로 모자익ML 데이터팀에 의해 관리되는 1조 토큰 텍스트와 코드로 학습됐다. 다음은 스토리라이터(MPT-7B-StoryWriter-65k+). 스토리라이터는 긴 컨텍스트 길이를 가진 스토리를 읽고 쓰도록 설계된 모델이다. 토큰 6만 5,000개를 넘는 추론이 가능하며 A100-80GB GPU 싱글 노드에서 토큰 8만 4,000개 동작을 실증하고 있다.

또 인스트릭트(MPT-7B-Instruct)는 짧은 형식 명령을 따르기 위한 모델이며 챗(MPT-7B-Chat)은 대화 생성을 위한 채팅봇 같은 모델이다. 데이터세트(ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless, Evol-Instruct)로 MPT-7B를 미세 조정해 구축됐다.

대부분 오픈소스 언어 모델은 수천 토큰까지의 시퀀스만 처리할 수 있다. 하지만 모자익ML 플랫폼과 8xA100-40GB 싱글 노드를 이용하면 MPT-7B를 간단하게 미세 조정해 최대 6만 5,000까지 컨텍스트 길이를 취급할 수 있도록 한다.

스토리라이터는 6만 5,000 토큰 처리를 받는 모델이다. 이는 8,000 또는 3만 2,000 토큰을 취급할 수 있는 GPT-4보다 2배, MPT-7B에 6만 5,000 토큰 미만 소설인 위대한 게츠비를 읽어 보면 20초 만에 애필로그라는 프롬프트에 대해 에필로그를 생성하는데 성공했다고 한다.

모델 4종은 불과 몇 주간 구축에 성공한 것으로 앞으로 유사 모델이 차례로 탄생할 가능성도 충분히 생각할 수 있다. 모자익ML은 MPT-7B는 단지 시작일 뿐이라며 품질 기초 모델을 계속 만들어갈 예정이며 이미 학습 중인 모델도 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.