지난 12월 6일 AMD가 AI 특화형 칩인 MI300X와 MI300A를 발표했다. AMD는 MI300X가 엔비디아 AI 칩인 H100보다 뛰어난 성능을 발휘한다고 어필한다. 하지만 아직 AMD가 실시한 벤치마크 결과만 공개되어 있다. 이런 가운데 반도체 관련 컨설턴트가 AMD 공식 자료를 바탕으로 MI300X가 얼마나 성능을 갖추고 있는지 분석해 눈길을 끈다.
AMD가 어필한 MI300X와 H100 GPU 성능차를 보면 다양한 용도에서 MI300X가 H100을 능가하는 성능을 발휘하는 걸 밝히고 있다. AMD는 MI300X와 H100 성능차를 보여주기 위해 Llama2-13B와 Bloom 성능 비교 결과를 제시한다. 이 가운데 Bloom에선 MI300X가 H100 1.6배 성능을 내고 있다. 다만 이 테스트 결과는 메모리 용량이 크게 영향을 주지만 실제 환경에선 메모리 용량차에 의해 생기는 스루풋 크기를 중시하는 시나리오는 한정적이라는 지적이다.
지표 | MI300X | H100 | MI300X와 H100 성능차 |
TBP | 750W | 700W | |
메모리 용량 | 192GB | 80GB | 2.4배 |
메모리 대역폭 | 5.3TB/sec | 3.3 TB/s | 1.6배 |
FP64 Matrix / DGEMM(TFLOPS) | 163.4 | 66.9(Tensor) | 2.4배 |
FP32 Matrix / SGEMM(TFLOPS) | 163.4 | 비대응 | |
FP64 Vector / FMA64(TFLOPS) | 81.7 | 33.5 | 2.4배 |
FP32 Vector / FMA32(TFLOPS) | 163.4 | 66.9 | 2.4배 |
TF32(Matrix) | 653.7 | 494.7 | 1.3배 |
TF32 w// Sparsity(Matrix) | 1307.4 | 989.4 | 1.3배 |
FP16(TFLOPS) | 1307.4 | 133.8|989.4(Tensor) | 9.8배 | 1.3배 |
FP16 w/Sparsity(TFLOPS) | 2614.9 | 1978.9(Tensor) | 1.3배 |
BFLOAT16(TFLOPS) | 1307.4 | 133.8|989.4(Tensor) | 9.8배 | 1.3배 |
BFLOAT16 w/Sparsity(TFLOPS) | 2614.9 | 1978.9(Tensor) | 1.3배 |
FP8(TFLOPS) | 2614.9 | 1978.9 | 1.3배 |
FP8 w/Sparwity(TFLOPS) | 5229.8 | 3957.8(Tensor) | 1.3배 |
INT8(TOPS) | 2614.9 | 1978.9 | 1.3배 |
INT8 w/Sparsity(TOPS) | 5229.8 | 3957.8(Tensor) | 1.3배 |
Llama2-13B에서 MI300X는 H100 1.2배 성능을 내는 것으로 알려져 있다. MI300X가 H100보다 저렴하다는 사실을 바탕으로 MI300X 성능차를 인정할 수 있다. 또 기존 AI 관련 소프트웨어 대부분이 엔비디아 칩에서 동작에 최적화되어 있다는 점을 근거로 소프트웨어 최적화가 진행되면 MI300X는 한층 더 성능을 발휘할 가능성이 있다는 지적이다.
다만 11월 엔비디아가 발표한 AI 칩인 H200이 MI300X보다 뛰어난 성능을 발휘할 가능성도 지적하고 있다. 관련 내용은 이곳에서 확인할 수 있다.