AI 벤치마크인 MLPerf Ver.4.1이 공개되면서 엔비디아 B200과 구글 트릴리움(Trillium) 등 새로운 AI 칩 결과가 밝혀졌다. 이에 따르면 엔비디아 차세대 GPU인 B200은 현행 H100과 비교해 일부 테스트에서 2배 성능을 달성했으며 구글 신형 가속기 트릴리움은 2023년 테스트된 칩과 비교해 4배 성능 향상을 보여줬다.
MLPerf v4.1은 추천 시스템, GPT-3와 BERT-large 사전 학습, Llama 2 70B 미세 조정, 객체 탐지, 그래프 노드 분류, 이미지 생성이라는 6가지 작업으로 구성된 AI 벤치마크다. MLPerf v4.1에서는 처음으로 MoE(Mixture of Experts)라는 모델 아키텍처를 바탕으로 한 새로운 벤치마크가 도입됐다. MoE는 단일 대규모 모델이 아닌 여러 개 소규모 전문가 모델을 사용하는 설계로 오픈소스 믹스트랄l 8x7B 모델을 참조 구현으로 사용하고 있다.
이번 벤치마크에는 22개 조직에서 964개 성능 결과가 제출됐으며 AMD MI300x, AMD 에픽 튜린(Turin), 구글 트릴리움 TPUv6e, 인텔 그라나이트 래피드 제온(Granite Rapids Xeon), 엔비디아 블랙웰 B200, UntetherAI SpeedAI 240 시리즈라는 6가지 프로세서가 처음으로 벤치마크 테스트에 등장했다.
엔비디아 블랙웰 B200은 계산 정확도를 8비트에서 4비트로 낮추는 방법을 통해 처리 속도를 향상시켰으며 GPT-3 학습 및 대규모 언어 모델(LLM) 미세 조정 작업에서 GPU 단위로 H100 2배 성능을 달성했다. 추천 시스템과 이미지 생성에서도 각각 64%와 62% 성능 향상을 달성했다고 한다.
한편 구글 6세대 TPU인 트릴리움은 GPT-3 학습 작업에서 이전 세대와 비교해 최대 3.8배 성능 향상을 보였지만 엔비디아와의 경쟁에서는 고전하고 있다. GPT-3 학습에서 설정된 체크포인트에 도달하기까지 걸린 시간은 엔비디아 H100 시스템(11,616개)에서는 3.44분이 소요된 반면 TPU v5p 시스템(6,144개)에서는 11.77분이 걸렸다.
전력 소비와 관련해 델 시스템은 Llama 2 70B 미세 조정 작업에서 측정을 진행했으며 서버 8대와 64개 엔비디아 H100 GPU, 16개 인텔 제온 플래티넘 CPU를 사용해 5분간 16.4메가줄 전력을 소비했으며 이는 미국 평균 전기요금 기준 75센트 전력 비용으로 환산된다고 한다.
미국 전기전자학회(IEEE)는 이번 벤치마크 결과를 바탕으로 AI 학습 성능 향상은 무어의 법칙보다 2배 빠르게 진행되고 있지만 이전과 비교했을 때 성능 향상 속도는 점차 완만해지고 있다면서 이는 기업이 대규모 시스템에서의 벤치마크 테스트 최적화를 이미 달성했기 때문이며 소프트웨어와 네트워크 기술 발전으로 프로세서 수를 늘려 처리 시간을 선형적으로 단축할 수 있게 됐기 때문이라고 평가했다. 앞으로는 효율화와 전력 소비 최적화가 더 중시될 것으로 예상된다. 관련 내용은 이곳에서 확인할 수 있다.