테크레시피

무료로 상용 이용도 가능? 오픈소스 대규모 언어 모델

GPT-4 같은 대규모 언어 모델을 통해 AI 기술이 빠르게 확산되고 있다. 하지만 GPT-4를 비롯한 대규모 언어 모델 중 상당수가 폐쇄형 상용 모델이거나 부분적으로만 열려 있다. 레드파자마(RedPajama)는 완전히 오픈소스화된 대규모 언어 모델을 개발하는 프로젝트 첫 단계로 1조 2,000억 이상 토큰을 포함한 LLaMA 학습 데이터세트가 공개됐다.

레드파자마는 재현 가능하고 완전히 개방적인 언어 모델을 창출하기 위한 노력으로 AI 스타트업인 투게더(Together), 온투코드(Ontocord.ai), 취리히공대 ETH DS3랩, 스탠포드대학 스탠포드 CRFM, 헤이지리서치(Hazy Research), MILA퀘벡AI인스티튜트(MILA Québec AI Institute) 공동 연구 프로젝트로 진행되고 있다.

이런 레드파자마 기반이 되는 건 메타가 개발하는 LLaMA다. LLaMA는 1조 2,000억 토큰 데이터세트로 학습된 대규모 언어 모델로 70억 파라미터 모델은 GPT-4나 친칠라(Chincilla)보다 훨씬 경량이면서 동등 퍼포먼스를 발휘하는 게 특징이다.

하지만 LLaMA는 부분적으로 오픈소스로 개발됐지만 비영리 연구 목적으로만 사용할 수 있으며 가중치 데이터는 공개되지 않았다. 따라서 레드파자마는 상업용 응용 프로그램에도 사용할 수 있는 완전한 오픈소스로 개발하는 걸 목표로 한다.

레드파자마는 고품질로 폭넓은 범위를 커버하는 사전 학습 데이터 개발, 사전 학습 데이터로 대규모로 학습한 기반 모델 개발, 이 기반 모델을 개량해 사용하기 쉽고 안전성을 높인 튜닝 데이터와 모델 개발이라는 3단계를 상정하고 이번에 공개된 건 1단계인 사전 학습 데이터(RedPajama-Data-1T)로 AI용 리포지토리 사이트인 허깅페이스에서 공개되고 있다.

이 데이터는 데이터세트를 수집하는 소스에 따라 7개(CommonCrawl, C4, GitHub, arXiv, Books, Wikipedia, StackExchange) 데이터 슬라이스로 이뤄져 있으며 각각 신중한 전 처리와 필터링이 이뤄지고 있다는 것. RedPajama-Data-1T는 LLaMA에서 사용된 데이터세트를 재현한 것으로 각 데이터 슬라이스 토큰 수도 상당히 가깝다고 한다.

레드파자마의 다음 목표는 이런 RedPajama-Data-1T를 이용해 강력한 대규모 언어 모델을 학습하는 것이다. 이미 OLCF(Oak Ridge Leadership Computing Facility) 지원을 받아 학습을 실시하고 있으며 5월 중 첫 모델이 이용 가능하게 된다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사