오픈AI가 제공하는 챗GPT 같은 채팅 AI는 오약이나 코딩, 번역 등을 인간 전문가 이상 정확도로 실행할 수 있다고 보고됐다. 하지만 채팅 AI 학습에 필요한 인간 피드백을 기반으로 강화학습을 수행하는 엔드두엔드 파이프라인이 존재하지 않아 첨단 채팅 AI 학습을 수행하는 건 어려웠다. 하지만 마이크로소프트가 발표한 딥스피드-챗(DeepSpeed-Chat)에선 누구나 챗GPT와 같은 모델을 작성 가능하다.
지금까지 챗GPT와 같은 모델 훈련에 필요한 RLHF를 쉽고 높은 효율로 실행할 수 있는 파이프라인은 존재하지 않았다. 또 챗GPT와 같은 AI 모델을 교육하기 위해선 고가 GPU가 여러 개 필요하기 때문에 일반 개발자에게는 이런 종류 AI 모델을 개발하는 게 어려웠다. 또 GPU를 준비해도 기존 소프트웨어에선 하드웨어 5% 미만 성능만을 끌어낼 수 있어 쉽고 빠르게 저비용으로 수천억 파라미터를 갖는 모델 훈련은 불가능했던 게 보고됐다.
따라서 마이크로소프트는 개발자가 더 저렴한 가격으로 채팅 AI를 개발할 수 있도록 하는 걸 목표로 한 프레임워크인 딥스피드-챗을 발표한 것이다.
딥스피드-챗은 챗GPT 우너천이 된 인스트럭트GPT(InstructGPT)에서 실시한 교사 첨부 파인 튜닝, 보상 모델 파인 튜닝, RLHF 훈련 3단계를 실행해 독자적인 챗GPT 비슷한 모델을 생성할 수 있는 스크립트를 제공한다. 또 학습 뒤 대화 형식을 테스트하기 위한 추론 API도 제공한다.
또 딥스피드-챗에 탑재되어 있는 딥스피드-RLHF(DeepSpeed-RLHF) 파이프라인은 교사 첨부 파인 튜닝, 보상 모델 파인 튜닝, RLHF 훈련을 실시하는 것과 동시에 연구자나 개발자가 복수 데이터 리소스를 이용해 독자적인 RLHF 모델을 훈련하는데 도움이 되기 위해 데이터 추상화 또는 블렌드 기능을 수행할 수 있다. 데이터 추상화에선 다른 데이터세트 형식을 통합하기 위해 추상화된 데이터세트를 만들고 블렌드 기능은 여러 데이터세트를 적절하게 융합하며 교사가 있는 정밀 조정 등 훈련으로 나눈다.
또 딥스피드-RLHF 파이프라인에 의한 학습을 폭넓은 하드웨어로 빠르고 저비용으로 실행하기 위해 지금까지 딥스피드가 발표한 제로 등 추론과 학습을 위한 모든 시스템을 융합한 딥스피드 하이브리드 엔진이 구성되어 있다.
딥스피드 하이브리드 엔진을 탑재한 딥스피드-챗을 이용해 마이크로소프트 애저 상에서 데이터센터용 GPU인 엔비디아 A100 64대를 이용해 학습을 실시하면 OPT-13B 모델은 7.5시간에 훈련을 완료한다. 비용은 1,920달러다. 또 블룸 모델에선 20시간, 5,120달러로 훈련이 완료된다고 한다. 이 수치는 기존 RLHF 시스템보다 훨씬 빠르고 저렴한 비용으로 학습이 가능하다는 걸 보여준다.
또 딥스피드-챗에선 수십억에서 1조 정도 파라미터를 갖는 대규모 모델 훈련과 추론이 가능하고 한정된 GPU 리소스 환경에서도 훈련과 추론을 할 수 있게 된다고 한다. 보도에 따르면 딥스피드-챗이 GPT-4 재현을 단순화하는 건 아니지만 재현을 향한 몇 가지 큰 장애물은 넘을 수 있다고 밝히고 있다. 또 마이크로소프트는 딥스피드-챗을 개발하는 딥스피드에 무료로 100억 달러를 출자해 챗GPT와 같은 기능을 마이크로소프트 제품에 통합하는 연구를 지원하고 있다고 밝히고 있다. 딥스피드-챗 소스코드 등은 깃허브에 공개된다. 관련 내용은 이곳에서 확인할 수 있다.