GPT-3 성능 비슷한 언어 모델을 오픈소스로…

정확한 문장을 만들 수 있는 언어 모델인 GPT-3은 오픈AI(OpenAI)가 개발했지만 오픈소스 오픈 액세스가 아니며 마이크로소프트와 독점 라이선스 계약을 체결하고 있기 때문에 자유롭게 사용할 수는 없다. 이런 상황에 대해 오픈소스판 GPT-3을 만들자는 움직임이 바로 GPT-Neo다.

GPT-Neo를 개발하는 연구 그룹은 엘레우테리오AI(EleutherAI). 이들은 그룹 결성 이전에 TFRC(Tensorflow Research Cloud)를 이용해 GPT-2 사본을 만들려는 시도를 했고 이 코드가 GPT-Neo 기반이 됐다고 한다.

하지만 GPT-3 복사본을 목표로 하면 TFRC를 통해 제공되는 TPU는 부족하다는 문제가 있었다. 이 점을 도운 게 CGI 렌더링과 기계학습을 위한 클라우드 서비스를 제공하는 암호화 자산 채굴 업체 코어위브(CoreWeave)다. 물론 코어위브는 어디까지나 하드웨어 자원 제공을 받을 뿐이며 GPT-Neo가 오픈소스인 것에는 변함이 없다고 한다.

훈련용 데이터 집합에 편차는 언어 모델에 따라 편차가 증폭될 수 있다는 지적이 있기 때문에 용납할 수 없는 부정적인 편견을 포함하는 데이터 집합을 빼도록 엄격하게 편집 방침을 마련했다. 완성된 코퍼스 더파일(The Pile)은 데이터 크기가 835GB이며 22개 작은 데이터베이스를 결합해 광범위한 일반화 능력을 확보하고 있다.

엘레우테리오AI는 GPT-Neo가 GPT-3과 같은 매개변수량에 비슷한 성능을 발휘할 수 있다고 기대하고 있다고 밝히고 있다. 미래에는 매개변수 자릿수를 하나 떨어뜨리고 경량화한 최종 모델을 계획하고 있다고 한다.

또 GPT-Neo 상용 API를 제공할 예정은 없지만 코어위브나 제3자가 서비스를 제공해 일반 사용자도 GPT-Neo를 이용할 수 있게 될 것으로 기대하고 있다. 관련 내용은 이곳에서 확인할 수 있다.