테크레시피

엔비디아가 2년 만에 발표한 新 GPU 아키텍처

엔비디아가 자사 기술 콘퍼런스인 GTC 2024 기간 중 2년 만에 새로운 GPU 아키텍처인 블랙웰(Blackwell)과 블랙웰 아키텍처를 기반으로 한 GPU인 B200을 발표했다. 블랙웰을 통해 모든 조직이 비용과 에너지 소비를 25분의 1로 줄이고, 수조 파라미터에 이르는 대규모 언어 모델(LLM)에 의한 실시간 생성형 AI를 구축하고 실행할 수 있게 된다는 설명이다.

블랙웰 아키텍처는 2022년에 발표된 호퍼(Hopper) 아키텍처 후속 모델이다. 명칭 자체는 아프리카계 미국인으로는 처음으로 미국 과학 아카데미에 입성한 수학자·통계학자 데이비드 하롤드 블랙웰에서 따온 것이다.

엔비디아에 따르면 블랙웰에는 6가지 혁신 기술이 탑재되어 있다. 첫 번째는 세계에서 가장 강력한 칩. 호퍼 아키텍처 GPU인 H100은 TSMC 4nm 제조공정에서 만든 트랜지스터 8,000억 개를 탑재했지만 블랙웰 GPU는 4nm 제조공정 개선 버전으로 만든 트랜지스터를 2조 800억 개 탑재한다. 한계 크기 GPU 다이 2개를 초당 10TB 고속 인터페이스인 NV-HBI로 연결해 GPU 하나로 취급한다.

2번째는 제2세대 트랜스포머 엔진(Transformer Engine). LLM 최적화를 위한 라이브러리(NVIDIA TensorRT-LLM)와 네모(NeMo) 프레임워크를 결합한 동적 범위 관리 알고리즘과 새로운 마이크로 텐서 스케일링 지원을 통해 새로운 4비트 부동 소수점 AI 추론 기능으로 컴퓨팅과 모델 크기가 2배가 된다.

3번째는 5세대 NV링크(NVLink). 고속 GPU 인터커넥트인 NV링크 최신 버전을 통해 GPU당 초당 1.8TB 양방향 처리량을 실현하고 거대한 LLM을 위해 최대 576개 GPU간 고속 통신을 보장한다.

4번째는 RAS 엔진. 전용 RAS 엔진을 갖추고 있을 뿐 아니라 칩 레벨에서 AI 기반 예방 유지보수 기능이 추가되어 복구력을 높이고 시스템 가동 시간을 최대화하고 운영 비용을 줄인다.

5번째는 안전한 AI 고급 컨피덴셜 컴퓨팅 기능. 새로운 네이티브 인터페이스 암호화 프로토콜을 지원하고 하드웨어 기반 강력한 보안을 통해 기밀 데이터와 AI 모델을 불법 접근으로부터 보호해준다. 컨피덴셜 컴퓨팅은 암호화 없는 모드와 거의 동등한 처리량 성능을 발휘한다.

6번째는 압축 해제 엔진. 전용 압축 해제 엔진이 최신 압축 포맷(LZ4, Snappy, Deflate)을 지원한다. 또 그레이스 CPU 대용량 메모리에 초당 900GB 양방향 대역폭으로 고속 접근할 수 있는 기능을 통해 데이터베이스 쿼리 전체를 가속화하고 데이터 분석 등에서 고성능을 실현한다.

이런 블랙웰 아키텍처 기반 GPU가 바로 B200이다. B200을 사용한 플랫폼으로는 B200 2개와 그레이스 CPU 1개를 연결한 슈퍼칩인 GB200, B200 72개와 그레이스 36개를 결합해 연결한 GB200 NVL72, B200을 8개 연결한 통합 AI 플랫폼인 DGX B200과 서버 보드인 HGX B200 같은 제품이 제시됐다. 또 GB200을 36개 결합한 DGX GB200 시스템, DGX GB200으로 구축한 차세대 AI 슈퍼컴퓨터인 DGX SuperPOD 등도 발표했다.

통합 AI 플랫폼인 DGX B200은 공랭식 랙 마운트 형태 DGX 플랫폼 제6세대에 해당한다. B200 8개와 인텔 제온 프로세서 2개를 탑재하고 최대 144PFLOPS에 이르는 AI 성능과 1.4TB 대용량 GPU 메모리, 초당 64TB 메모리 대역폭을 통해 1조 파라미터 모델 실시간 추론에서 호퍼 아키텍처와 비교해 15배 가속화를 실현했다.

DGX SuperPOD은, 젠슨황 CEO가 “AI 산업혁명의 공장”이라고 표현한 슈퍼컴퓨터. 엔비디아 가속 컴퓨팅, 네트워킹, 소프트웨어 최신 기술을 결합해 모든 기업, 산업, 국가가 자신만의 AI를 개선하고 생성할 수 있게 해줄 것이라는 설명이다. 엔비디아 퀀텀-2 인피니밴드 아키텍처를 통해 GB200 칩을 수만 개를 탑재할 수 있다.

또 따로 발표한 퀀텀-X800 인피니밴드 네트워킹을 지원해 플랫폼 내 개별 GPU에 최대 초당 1,800GB 대역폭을 제공한다. 여기에 4세대 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 기술을 통해 이전 세대 대비 4배인 14.4TFLOPS 성능을 실현한다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사