AI 개발을 선도한다는 건 하드웨어 인프라에 대한 투자로 선도한다며 메타가 AI를 위한 투자로 2만 4,000기 이상 GPU를 탑재한 데이터센터 스케일 클러스터 정보를 공개했다.
메타는 지난 2022년 GPU 1만 6,000기를 탑재한 RSC(AI Research SuperCluster) 구축을 한다는 게 보도된 바 있다. 새로운 GPU 클러스터는 이런 RSC를 기반으로 얻은 교훈을 반영해 구축되어 있어 기계학습에 최적이라고 여겨지는 엔비디아 H100 GPU를 2만 4,576기 탑재하고 있다. 메타는 2023년 엔비디아 H100 GPU를 15만 기 구입한 것으로 보여지고 있다.
메타에 따르면 새로운 GPU 클러스터는 RSC보다 거대하고 복잡한 모델을 지원할 수 있게 되어 생성형 AI 개발 진보에 길이 열릴 것이라는 설명이다. 이 클러스터는 일반 대중 언어 모델인 LLaMA 2 후속인 LLaMA 3을 포함해 메타가 진행 중인 현세대와 차세대 AI 모델을 지원하며 생성형 AI와 기타 분야 AI 연구 개발을 지원하고 있다는 것.
메타는 또 인프라 로드맵에서 이번 GPU 클러스터 구축은 단계 중 하나에 불과하며 2024년 말까지 엔비디아 H100 GPU 35만 기를 포함해 계산 능력으로 말하면 엔비디아 H100 GPU 60만 기에 해당하는 인프라 구축을 목표로 하고 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.