테크레시피

오픈소스 LLM 프로젝트 레드파자마, 첫 기본 모델 공개해

메타가 공개한 대규모 언어 모델인 LLaMA 논문에 근거해 대규모 언어 모델을 구축하는 오픈소스 프로젝트인 레드파자마(RedPajama)가 LLaMA를 가능하면 충실하게 재현하는 걸 목적으로 한 기본 모델인 레드파자마-INCITE(RedPajama-INCITE)를 공개했다.

레드파자마는 AI 스타트업인 투게더(Together)와 취리히공대, 스탠포드대학 등이 공동으로 연구를 진행하는 프로젝트로 비영리 연구 목적으로만 이용할 수 있는 LLaMA를 기반으로 상용 이용이 가능하고 완전히 개방 언어 모델을 만드는 걸 목표로 개발이 이뤄지고 있다.

레드파자마는 고품질로 넓음 범위를 커버할 필요가 있는 사전 학습용 데이터, 해당 데이터로 대규모로 학습시킨 기본 모델이라는 3종류를 단계적으로 개발하는 목표를 세우고 있으며 지난 4월에는 1단계로 1조 2,000억 이상 토큰을 포함한 5TB 학습 데이터세트가 공개됐다. 이 데이터세트는 이미 수백 회 다운로드됐으며 MPT와 오픈LLaMA, 오픈알파카 등 모델을 학습시키는데 사용됐다.

이번에는 2단계에 해당하는 기본 모델이 공개된 것. 레드파자마는 기보 모델 외에도 명령어 조정 모델과 채팅 모델을 출시하고 추가 개선을 도모하겠다는 정책을 제시했다. 레드파자마-INCITE에는 30억 매개변수 모델과 70억 매개변수 모델이 있다. 또 2018년 출시된 RTX 2070에서도 동작한다고 한다. 70억 모델은 Pythia 7B 모델을 웃도는 성능을 나타내고 있다고 한다.

공개된 변형을 보면 벤치마크로 같은 규모 다른 오픈 모델을 능가하는 기본 모델(RedPajama-INCITE-Base-3B-v1), 기본 모델을 오픈소스 대규모 언어 모델 돌리 2.0(Dolly 2.0)처럼 오픈소스 대규모 언어 모델 오픈어시스턴트(Open Assistant) 데이터를 사용해 미세 조정한 채팅 모델(RedPajama-INCITE-Chat-3B-v1), 전 세계 컴퓨터를 링크하는 것으로 개발된 GPT-JT와 거의 같은 계산식을 이용해 기본 모델에 대해 파인 튜닝을 실시한 모델(RedPajama-INCITE-Instruct-3B-v1), 레드파자마 7B 초기 프리뷰 버전으로 1조 토큰 중 8,000억 토큰 학습이 완료된 버전(RedPajama-INCITE-Base-7B-v0.1), 기본 모델에서 학습한 채팅 모델 얼리 프리뷰 버전(RedPajama-INCITE-Chat-7B-v0.1), 기본 모델에서 학습한 Few-Shot, 프롬프트용으로 설계된 모델 초기 프리뷰(RedPajama-INCITE-Instruct-7B-v0.1)

레드파자마 측은 가장 큰 수확은 오픈소스 커뮤니티가 고성능 대규모 언어 모델을 빠르게 구축할 수 있다는 걸 입증한 것이라며 이런 개방형 협업이 더 큰 규모로 미래에 최고의 AI 시스템을 지원할 것으로 믿는다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular