테크레시피

AI 기업이 공개한 오픈소스 GPT 기반 대규모 언어 모델

AI 기업인 셀레브라스(Cerebras)가 오픈소스로 파라미터 수 1억 1,100만에서 130억에 이르는 대규모 언어 모델인 셀라브라스-GPT(Cerebras-GPT) 7종을 공개했다. 셀라브라스-GPT는 오픈AI GPT-3을 기반으로 딥마인드가 2022년 3월 출시한 친칠라(Chinchilla) 방식으로 학습한 모델로 지금까지 공개된 어떤 모델보다 학습 시간이 짧고 학습 비용이 낮으며 소비 전력이 적은 게 특징이다.

주요 대규모 언어 모델 오픈 액세스와 라이선스를 보면 오픈AI GPT-4는 모델 구조를 포함해 오픈되어 있지 않고 딥마인드 친칠라도 오픈 액세스가 가능한 건 모델 구조 뿐이다. 메타 OPT는 거의 개방되어 있지만 모델 가중치는 연구자 뿐이거나 라이선스가 비상용 이용에 한정되어 있다. 한편 셀라브라스-GPT는 모든 모델, 가중치, 체크포인트는 아차피 2.0 라이선스 하에 허깅페이스와 깃허브에서 공개된다.

셀라브라스는 LLM이 개방적이고 접근하기 쉬운 기술이기 때문에 연구, 상용 애플리케이션 모두에서 개방, 재현 가능, 로열티 없는 첨단 모델에 대한 액세스가 중요하다고 생각한다고 밝히고 있다. 셀라브라스-GPT는 셀라브라스가 보유한 AI 슈퍼컴퓨터 안드로메다 일부인 CS-2 시스템에서 몇 주간 학습이 진행되고 있다고 한다. 셀라브라스는 111M, 256M, 590M, 1.3B, 2.7B, 6.7B, 13B 7개 모델이 있으며 모델 크기에 최적인 학습 토큰을 사용한 것으로 모든 모델 크기에서 단위 계산량당 데이터 손실이 가장 작아지고 있다고 밝히고 있다.

또 셀라브라스는 셀라브라스-GPT가 하류 작업에서 높은 학습 효율을 유지할 것이라고 어필하고 있다. 셀라브라스 측은 셀라브라스-GPT가 첨단 학습 효율을 가진 첫 공개 대규모 GPT 모델군으로 효율적인 학습을 위한 레시피로 커뮤니티 연구를 위한 참고 자료로 도움이 될 것으로 기대했다. 또 셀라브라스 AI 모델 스튜디오를 통해 클라우드에서 인프라와 모델을 모두 사용할 수 있도록 지원하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독