중국 GPU 메이커인 무어스레드(摩尔线程. Moore Threads)가 자사 GPU를 사용해 대규모 언어모델 MT-infini-3B를 개발했다고 발표했다. MT-infini-3B는 엔비디아 GPU로 학습한 대규모 언어모델과 동등 이상 성능을 갖추고 있다고 한다.
미국 정부는 중국의 AI 연구를 군사적 위협으로 인식하고 있으며 중국에 고성능 반도체 수출을 금지하는 조치를 취하고 있다. 그 결과 중국에서는 엔비디아, AMD, 인텔 등이 개발한 AI 연구용 칩 개발이 어려운 상황.
이런 가운데 무어스레드는 2023년 12월 자체 개발한 AI 연구용 GPU인 MTT S4000을 발표했다. MTT S4000은 FP32에서 25TFLOPS 성능을 발휘하고 쿠다(CUDA)와 호환된다고 알려져 대규모 AI 개발에 활용될 수 있을 것으로 주목받았다.
이어 무어스레드는 5월 27일 자사 GPU를 사용해 대규모 언어모델 MT-infini-3B를 개발했다고 발표했다. MT-infini-3B는 파라미터 수 30억 개 언어모델이며 학습 기간은 13.2일이 소요됐다고 한다. 다만 무어스레드 측은 학습에 사용한 GPU 모델명을 밝히지 않았다.
무어스레드가 공개한 MT-infini-3B와 다른 대규모 언어모델들의 벤치마크 결과를 보면 MT-infini-3B가 파라미터 수 80억 개인 Llama3-8B를 능가하는 성능을 보이고 있다. 또 표에는 모델별 학습에 사용된 GPU 메이커명이 적혀있어 무어스레드 GPU가 엔비디아 GPU와 동등한 용도로 사용될 수 있음을 시사하고 있다.
MT-infini-3B 학습은 중국 기업 우원신치옹(无问芯穹)이 제공하는 AI 학습 플랫폼을 활용해 이뤄졌다. 우원신치옹 측은 MT-infini-3B는 중국산 GPU로 처음부터 끝까지 학습된 첫 대규모 언어모델이라며 MT-infini-3B가 중국 기술로 구축됐다는 걸 강조했다. 관련 내용은 이곳에서 확인할 수 있다.