알리바바 클라우드 엔지니어이자 연구원인 엔난 자이(Ennan Zhai)가 LLM 학습용 데이터센터 GPU를 이더넷으로 상호 연결하는 방법에 관한 연구 논문을 발표했다. 이 기술은 엔비디아 GPU 상호 연결 프로토콜인 NV링크(NVLink) 대신 이더넷을 채택한 점에서 혁신적이라고 평가받고 있다.
연구팀이 발표한 논문에 따르면 일반 클라우드 컴퓨팅에서는 10Gbps 이하 데이터 흐름이 지속적으로 생성된다고 한다. 반면 AI 워크로드에서는 최대 400Gbps에 달하는 데이터 버스트가 정기적으로 발생하지만 이로 인해 일반 데이터센터 부하 분산 방식인 ECMP(Equal-Cost Multi-Path)에서 해시 편극화 그러니까 부하가 분산되지 못하고 사용 가능한 대역폭이 크게 감소하는 문제가 발생할 수 있다.
이 문제를 해결하기 위해 연구팀은 알리바바 데이터센터에서 독자적인 고성능 네트워크(HPN)를 구축했다. 이 HPN에 대해 연구팀은 2계층 듀얼 플레인 아키텍처를 채택해 ECMP 발생을 억제하고 해시 편극화를 피하며 대규모 데이터 트래픽을 유지할 수 있는 네트워크 경로를 정확히 선택할 수 있게 된다고 설명하고 있다.
HPN을 통해 알리바바 AI 데이터센터에서는 GPU 8개와 네트워크 인터페이스 카드(NIC) 9개를 탑재한 호스트 1,875대가 각 400Gbps, 총 3.2Tbps 대역폭으로 통신할 수 있게 됐다. GPU를 8개 탑재한 호스트가 1,875대 있다는 건 이 데이터센터에서 1만 5,000개에 달하는 GPU가 상호 연결되어 있다는 것을 의미한다.
알리바바 연구 발표에서 주목할 만한 점은 크게 2가지다. 첫째는 호스트간 상호 연결에 엔비디아 NV링크 대신 이더넷을 사용한 점. 이더넷을 선택한 이유에 대해 연구팀은 벤더 록인을 피하고 이더넷 얼라이언스 전체 힘을 활용해 더 빠른 진화를 이루고 싶기 때문이라고 설명하고 있다. 보도에선 이게 엔비디아 탈피를 주장하는 벤더 주장을 뒷받침하는 것이라고 지적하고 있다.
두 번째는 스위치에 멀티칩이 아닌 51.2Tbps 싱글칩 스위치를 선택한 것. 이는 멀티칩 스위치 불안정성과 고장률을 꺼려했기 때문이지만 싱글칩 스위치에는 작동 온도가 높아져 105도를 초과하면 셧다운되는 단점이 있다. 이에 알리바바는 독자적인 베이퍼 챔버(VC) 히트싱크로 칩이 105도를 넘지 않도록 하는 냉각 시스템을 개발했다. 이를 통해 베이퍼 챔버 내 윅 구조를 최적화하고 칩 중앙에 더 많은 윅 구조 기둥을 배치해 더 효율적으로 열을 발산할 수 있게 됐다고 설명하고 있다.
알리바바 HPN은 논문이 발표된 시점에 이미 8개월 운용 실적이 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.