클라우드 TPU팟(Cloud TPU Pod)은 구글이 기계학습을 가속화하기 위해 개발한 시스템인 TPU팟(TPU Pod)을 클랑드 기반으로 처리할 수 있는 슈퍼컴퓨터다. 구글은 자사 개발자 행사인 구글 I/O 2019 기간 중 클라우드 TPU v2 팟(Cloud TPU v2 Pod)과 클라우드 TPU v3 팟(Cloud TPU v3 Pod) 베타 버전을 출시한다고 밝혔다. 이를 통해 기계학습 연구자나 엔지니어가 빠르게 기계학습 훈련을 시킬 수 있게 됐다는 걸 강조했다.
기계학습에선 대량 데이터로 모델을 훈련하기 위해 엄청난 연산 처리를 필요로 한다. 훈련에는 고사양 머신을 이용해도 오랜 시간이 걸린다. 이런 문제를 해결하기 위해 구글은 기계학습용으로 사용자 정의를 한 실리콘 칩인 TPU를 개발하고 있다. 구글 클라우드 플랫폼(Google Cloud Platform) 역시 TPU 시스템을 클라우드상에서 임대해주는 서비스인 클라우드 TPU(Cloud TPU)를 제공하고 있다.
이런 TPU 칩을 1,000개 이상 데이터 센터 네트워크에 연결한 게 바로 TPU 팟이다. 클라우드 TPU v2 팟과 v3 팟은 각각 2세대 TPU와 3세대 TPU를 이용한 클라우드 기반 컴퓨터다.
3세대 프로세서인 TPU 3.0을 이용한 클라우드 v3 TPU 팟은 높은 성능 제공을 위해 액체 냉장된다. 이 제품은 스탠퍼드 데이터셋인 이미지넷(ImageNet)을 이용한 ResNet-50 훈련을 불과 2분 만에 끝낼 수 있다. 사용자 정의 실리콘 칩에 기능 하나만 수행할 수 있는 것도 있지만 TPU는 완전히 프로그래밍을 할 수 있어 클라우드 TPU 팟은 다양한 기계학습 모델 훈련에 이용할 수 있다.
클라우드 TPU 팟은 슬라이드라는 작은 부분에서도 이용할 수 있다. 구글 기계학습팀은 첫 번째 모델을 개별 클라우드 TPU에서 개발한 뒤 훈련 규모를 확대할 때 더 큰 클라우드 TPU 팟 슬라이스를 이용하라고 권장하고 있다. 또 구글에 클라우드 TPU 팟이나 슬라이스 사용을 신청하려면 문의 양식을 이용해 구글 클라우드 담당자에게 연락을 해야 한다. 관련 내용은 이곳에서 확인할 수 있다.