테크레시피

데이터센터를 위한 초고성능 서버 메모리 대역폭

메모리 대역폭에 따라 실행되는 애플리케이션 성능이 떨어지면 칩을 잘 선택해 더 고성능 PC를 구축할 수 있다. 고가인 고성능 메모리 대역폭은 애플리케이션 성능에 어떤 영향을 미칠까.

2020년 IBM이 발표한 클라우드용 차세대 프로세서인 파워10(POWER10)은 큰 메모리 대역폭을 실현하고 있다. IBM은 2019년 고속 인터페이스로 멀티 프로토콜에 대응하는 OMI(Open Memory Interface)를 갖춘 파워10 탑재 머신으로 구축한 서버를 발표했다. 인텔은 IBM 파워10 프로세서가 다양한 기술을 수용할 수 있다고 밝혔다.

파워10은 코어당 320GB/sec 대역폭으로 256GB에서 4TB 메모리 용량을 실현하고 있다. 또 메모리 모듈 수를 4분의 1로 줄이고 코어당 128GB에서 512GB DDR4 용량을 실현하는 최적화된 프로세서에선 DDR5 메모리로 바꿔 대역폭을 800GB/sec로 올릴 수 있다. 또 시러스(Cirrus)라고 불리는 파워10 프로세서는 최대 메모리 대역폭이 1코어당 256GB/sec, 지속 메모리 대역폭은 코어당 120GB/sec다.

파워10 메모리 스트리밍은 듀얼 칩 모듈이기 때문에 다른 싱글 칩 소켓과 달리 클록 속도를 조정해 더 빨리질 수 있다. IBM이 출시한 랙형 서버인 IBM 파워 E1050(IBM Power E1050)은 최대 4개 파워10 듀얼 칩 모듈과 96코어를 탑재해 동작 주파수 3.2GHz로 동작하는 DDR4 메모리로 최대 64회 디퍼렌셜 방식 DIMM을 지원해 최대 1.6TB/sec 대역폭을 실현할 수 있다.

또 코어수를 삭감하는 것으로 대역폭을 배증할 수 있을 뿐 아니라 DDR5 메모리나 CXL(Compute Express Link) 메모리로 전환하는 것으로 메모리 대역폭을 더 확대할 수 있다고 한다. 비싼 IBM 파워 E1050을 도입하는 건 결코 저렴한 쇼핑은 아니지만 AMD(Instinct MI300)나 엔비디아(Grace Hopper)와 같은 CPU와 GPU를 일체화한 데이터센터용 고성능 칩 출시를 기다리는 것보다 좋은 선택이라고 한다. 이런 칩은 코어당 메모리 대역폭은 높지만 메모리 용량에 제한이 있고 파워10을 탑재한 IBM 파워 E1050이나 인텔이 발표한 사파이어 래피드(Sapphire Rapids)보다 소규모 프로그램 밖에 할 수 없다는 것. 또 AMD와 엔비디아 고성능 칩은 발열되기 쉽고 DRAM과 HBM 속도를 낮출 수밖에 없기 때문에 예상되는 메모리 대역폭에 도달하지 않을 가능성이 지적되고 있다.

완벽한 메모리 대역폭을 구축하는데 가장 적합한 CPU 프로세서 중에는 인텔 사파이어 래피드도 포함될 수 있다. 사파이어 래피드는 대역폭이 넓은 HBM2e 메모리와 DDR5 메모리를 동시에 지원할 수 있는 프로세서다. 사파이어 래피드 일부 제품은 여러 HBM2e 메모리를 지원하며 다른 제품은 NUMA 8개를 지원한다.

보통 사파이어 래피드 제온 SP 모델에선 DDR5 메모리 채널 8개가 있으며 채널당 DIMM 1장을 작동 주파수 4.8GHz로 사용하면 최대 용량은 2TB다. 또 채널당 DIMM 2개를 사용하면 최대 용량은 4TB로 확대되지만 동작 주파수는 4.4GHz가 된다고 한다.

60코어 사파이어 래피드 제온 SP-8490H는 동작 주파수가 1.9GHz로 동작하기 때문에 코어당 대역폭이 5.1GB/sec로 좁아진다. 한편 16코어 사파이어 래피드 제온 SP-8444H는 2.9GHz 고주파수로 동작하기 때문에 코어당 대역폭은 19.2GB/sec가 된다.

또 코어당 메모리 대역폭을 늘리고 싶어 사파이어 래피드 제온 SP-6434로 바꾸면 동작 주파수는 3.7GHz로 높아지고 코어당 대역폭은 38.4GB/sec로 확대된다.

사파이어 래피드 맥스 시리즈 CPU는 56코어로 HBM2e 스택 4개가 64GB 메모리 용량과 1.23TB/sec 대역폭을 가져 코어당 22GB/sec 메모리 대역폭을 실현한다. 다른 모델은 대역폭 1.23TB/sec 32코어로 동작해 코어당 38GB/sec 메모리 대역폭이 된다.

또 사파이어 래피드 맥스 시리즈 CPU에선 DDR5 메모리와 CXL 메모리를 추가해 모두 13.912TB/sec, 코어당 217.4GB/sec라는 높은 메모리 대역폭을 실현할 수 있다. 또 NUMA를 상호 접속해 더 높은 퍼포먼스를 실현할 수도 있다.

사파이어 래피드는 높은 메모리 대역폭을 필요로 하는 서버를 구축하는데 적합할 뿐 아니라 고성능 연산과 AI 기계학습 속도를 높이는 데에도 적합하지만 대규모 비용이 필요하다. 따라서 사파이어 래피드를 이용한 접근법은 AI 학습에 적합하지 않다.

또 AMD 인스팅트 MI300이나 엔비디아 그레이스호퍼 같은 칩에서도 적절한 사용을 하려면 GPU 코어와 HBM 메모리 대역폭간 밸런스가 중요하다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사