테크레시피

메타 “LLM 대규모로 학습시키는 방법은…”

메타는 지난 4월 오픈소스 대규모 언어 모델인 LLaMA 3를 출시했을 뿐 아니라 광고주를 위한 AI 생성 이미지 및 텍스트 도구를 전개하는 등 대규모 언어 모델 개발에 주력하고 있다. 이에 메타가 대규모 언어 모델을 학습시킬 때 어떤 과제를 인식하고 어떻게 대응했는지 설명했다.

메타는 이전부터 페이스북과 인스타그램 추천 시스템을 위해 다양한 AI 모델을 훈련해왔다. 하지만 이들 AI 모델은 비교적 적은 GPU를 필요로 하는 소규모 모델이었으며 LLaMA 시리즈와 같이 방대한 데이터와 GPU를 필요로 하는 대규모 언어 모델과는 달랐다.

기존 소규모 AI 모델과 다른 대규모 언어 모델 훈련을 위해 메타는 다음 4가지 과제를 극복해야 했다. 먼저 하드웨어 신뢰성. 작업 내 GPU 수가 늘어나므로 하드웨어 신뢰성을 높여 장애로 인한 훈련 중단 가능성을 최소화해야 한다. 이를 위해 엄격한 테스트, 품질 관리, 문제 검출 및 수정 자동화 프로세스 등이 포함된다. 다음은 장애가 발생하면 신속한 복구. 최선을 다해도 하드웨어 장애 발생 가능성은 없애기 어렵기에 훈련 재스케줄링 부하 감소, 빠른 재초기화 등 복구 대책을 사전에 마련해야 한다. 3번째는 효율적 훈련 상태 저장. 장애가 발생하면 중단 지점에서 훈련을 재개할 수 있도록 정기적으로 훈련 상태를 효율적으로 저장해야 한다. 마지막으로 GPU간 최적 연결. 대규모 모델 훈련 시 GPU 간에 대량 데이터 동기화와 전송이 필요하므로 견고하고 고속의 네트워크 인프라와 효율적 데이터 전송 프로토콜 및 알고리즘이 필요하다.

메타는 이런 대규모 모델 과제를 극복하기 위해 전반적인 인프라 혁신이 필요했다고 설명한다. 예를 들어 연구자가 기계학습 라이브러리 파이토치(PyTorch), 기타 새로운 오픈소스 개발 도구를 활용할 수 있게 해 연구에서 실제 환경까지 개발을 촉진했다고 한다. 또 다양한 작업 요구사항에 따라 리소스를 할당하는 고급 알고리즘과 가변 워크로드에 적응하는 동적 스케줄링을 적용해 리소스 활용을 최적화했다.

물론 대규모 언어 모델 훈련에 필요한 컴퓨팅 능력을 제공하려면 고성능 하드웨어 구성과 속성을 생성 AI에 최적화하는 것도 필수적이다. 구축한 GPU 클러스터를 데이터센터에 배치할 때도 데이터센터 내 전력 및 냉각 인프라를 변경하기 어려워 다른 유형 워크로드에 대한 트레이드오프와 최적의 레이아웃을 고려해야 한다.

메타는 엔비디아 H100 GPU를 2만 4,576개 탑재한 GPU 클러스터를 구축해 LLaMA 3를 비롯한 대규모 언어 모델 훈련에 활용하고 있음을 공개했다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사