구글은 2021년 기계학습에 특화한 프로세서 TPU(Tensor Processing Unit) 4세대 모델인 TPU v4를 발표했다. 새롭게 구글이 2023년 4월 공개한 공식 블로그와 아카이브에 투고한 논문에서 구글 TPU v4를 조합한 시스템은 같은 규모인 엔비디아 A100을 이용한 시스템보다 빠르고 효율적이라고 주장하고 있다.
기계학습 모델을 개발하면 많은 데이터를 학습시킬 수 있어 필요하기 때문에 모델이 복잡해지면서 컴퓨팅 리소스에 대한 수요도 증가하고 있다. 구글이 개발하는 TPU는 기계학습이나 딥뉴럴네트워크에 특화한 프로세서이며 TPU v4 성능은 이전 세대 TPU v3을 2.1배 웃돌아 전력당 성능도 2.7배 향상됐다고 구글은 주장하고 있다.
구글은 클라우드 컴퓨팅 서비스인 구글 클라우드를 통해 TP v4 4,096개를 결합한 슈퍼컴퓨터인 TPU v4 Pod를 제공한다. TPU v4 Pod는 독자 OCS(optical circuit switches)를 통해 TPU v4 4,096개를 상호 접속한 것으로 퍼포먼스, 가용성 등이 뛰어나며 LamDA, MUM, PaLM 등 대규모 언어 모델에서 주력 제품이 되고 있다고 한다.
구글은 TPU v4 Pod에서 사용하는 OCS에 대해 경쟁하는 상호 연결 기술인 이피니밴드에 비해 훨씬 저렴하고 저전력, 고속이며 OCS가 TPU v4 Pod 시스템 비용과 시스템 전력에서 차지하는 비율은 5% 미만이라고 한다.
기계학습용 슈퍼컴퓨터에 OCS를 사용하는 장점으로는 회로를 전환해 쉽게 고장이 난 컴포넌트를 우회할 수 있기 때문에 가용성이 뛰어나다는 점도 높아진다. 구글 바드와 오픈AI 챗GPT와 같은 대규모 AI 모델을 학습시키기 위해선 대량 칩을 몇 주에서 몇 개월에 걸쳐 가동해야 하기 때문에 가용성은 기계학습용 슈퍼컴퓨터에 중요하다.
구글은 논문에서 TPU v4 Pod는 엔비디아 A100을 이용한 같은 규모 시스템보다 1.2∼1.7배나 빠르고 소비 전력량도 1.3∼1.9배 적다고 주장하고 있다. 또 구글 클라우드에 최적화된 TPU v4 Pod는 일반 온프레미스 데이터센터 DSA와 비교해 에너지 소비량은 2∼6배, 이산화탄소 배출량은 20배 적다는 것. 덧붙여 엔비디아 최신 AI용 칩인 H100과 비교하지 않은 이유에 대해 구글은 H100은 TPU v4보다 고도인 4nm 제조공정으로 만들어진 것으로 가용성도 한정되어 있기 때문이라고 밝히고 있다.
TPU v4 Pod는 이미지 생성 AI인 미드저니 버전4 학습에도 사용됐다. 덧붙여 엔비디아는 4월 5일 타사 벤치마크 MLPerf가 공개한 벤치마크 테스트 데이터를 인용해 H100 성능이 이전 세대인 A100 4배를 상회했다고 보고하고 있다. 관련 내용은 이곳에서 확인할 수 있다.