기업과 연구 기관이 사용하는 대규모 AI 인프라에는 대량 계산 처리 칩이 탑재되어 있으며 방대한 데이터를 병렬 처리할 수 있도록 구성되어 있다. 최근 중국 대형 IT 기업인 텐센트가 AI 인프라 네트워크 처리를 개선해 AI 학습 성능을 20% 향상시키는 데 성공했다고 발표했다.
텐센트에 따르면 AI 인프라와 같은 대규모 HPC 클러스터에서는 전체 처리 시간 중 데이터 통신 시간이 최대 50%를 차지한다고 한다. 네트워크 처리 성능을 향상시켜 데이터 통신 시간을 단축할 수 있다면 GPU 대기 시간이 줄어들어 전체적인 처리 능력을 향상시킬 수 있다. 이를 위해 텐센트는 자사 AI 인프라 네트워크 처리 성능 향상에 노력을 기울였다.
텐센트는 지난 7월 1일 새로운 네트워크 처리 시스템인 싱마이 2.0(Xingmai 2.0)을 발표했다. 싱마이 2.0을 채택한 AI 인프라는 기존 시스템에 비해 통신 효율이 60%, AI 모델 학습 효율이 20% 향상됐다고 한다. 텐센트 내부 테스트에서는 대규모 AI 모델 학습 시간이 50초에서 40초로 단축됐다고 한다.
싱마이 2.0에는 텐센트가 개발한 통신 프로토콜 TiTa2.0이 채택되어 데이터에 대한 효율적인 분배가 가능하다. 또 TiTa2.0은 데이터 병렬 전송도 지원한다고 한다. 더불어 싱마이 2.0은 새로 개발된 네트워크 스위치와 광통신 모듈을 채택해 대역폭이 확대됐으며 단일 클러스터에서 10만 대 이상 GPU를 관리할 수 있다.
AI 계산 처리 분야에서는 미국 기업인 엔비디아가 큰 존재감을 보이고 있지만 미국은 중국에 대해 고성능 반도체 수출을 제한하고 있어 중국에 본사를 둔 기업이 엔비디아 고성능 반도체를 구입하기가 어려워졌다. 따라서 텐센트가 GPU 증강이 아닌 네트워크 처리 개선으로 AI 처리 성능을 향상시킬 수 있었다는 점은 주목할 만하다.
또 보도에선 AI 학습은 에너지를 대량으로 소비한다며 AI 인프라 처리 효율을 향상시키는 건 에너지 비용 절감으로 이어지기 때문에 가격 경쟁에서 매우 중요하다고 지적하고 있다. 관련 내용은 이곳에서 확인할 수 있다.