구글 네트워크 장애가 발생했던 이유

지난 6월 2일 구글 네트워크에 큰 장애가 발생하면서 일부 지역에선 구글이 제공하는 서비스와 구글 클라우드를 이용한 다양한 웹 서비스를 쓸 수 없게 되거나 작동이 무거워지는 사태가 발생했다. 이 같은 대규모 재해가 발생한 원인에 대해 구글 클라우드 측이 공식 블로그를 통해 설명했다.

지난 6월초 발생한 장애 탓에 미국과 유럽 일부 지역에선 구글 클라우드와 유튜브, G스위트 등 구글이 제공하는 서비스와 아이클라우드 등 구글 클라우드를 이용한 웹서비스에 문제가 발생했다. 구글 클라우드 모니터링팀(Google 24×7)은 공식 블로그를 통해 특정 지역 서버에 적용한 설정 변경이 잘못되면서 인접 지역 서버에도 적용되어 버린 게 원인이었다고 설명했다. 또 이번 사례는 소프트웨어 설정 오류와 버그가 결합되어 버린 것도 영향을 줬다고 한다.

데이터센터에 있는 구글 컴퓨터는 여러 논리적 클러스터로 분리되어 있다. 이런 클러스터마다 전용 관리 소프트웨어가 포함되어 있어 재해 복구 인프라 변경과 데이터센터 유지 관리, 이벤트 자동 실행 등을 할 수 있다. 구글 데이터센터 유지 보수를 이벤트로 설정할 때 보통 글로벌 유지 보수가 되며 지역 서버만 관리하는 일은 드물다.

이번에는 특정 지역 서버에서 유지 관리를 위해 네트워큰 제어를 정지할 수 있도록 이벤트를 설정했다. 그런데 6월 2일 11시 45분 유지 보수 이벤트가 시작되는 동시에 관리 소프트웨어 버그로 인접 지역 서버도 중지되도록 설정이 적용되어 버린 것. 그 결과 인접 지역 서버에서 설정을 덮어 버리고 사용 가능한 네트워크 용량 절반 이상을 쓰지 않고 네트워크 혼잡을 초래한 것이다.

구글 엔지니어링팀은 장애 발생 2분 뒤 복구 작업을 시작했다. 예정상 몇 분 안에 복구가 끝날 예정이었지만 네트워크가 혼잡한 탓에 관리 소프트웨어 디버그 작업에 난항을 겪어 1시간 16분 뒤 유지 관리 이벤트를 자동화하는 소프트웨어를 마침내 멈췄다. 이후 다시 처음 예약을 재구성해 재배포했고 서버 재구성을 끝낸 건 14시 3분. 15시 9분 네트워크 용량을 회복하고 16시 10분에는 모든 서비스가 재개됐다.

이번 영향으로 유튜브는 1시간당 2.5% 조회수 감소를 기록했고 구글 클라우드 스토리지는 30% 트래픽 감소를 기록했다. 영향을 받은 건 극히 일부 사용자지만 수백만에 이르는 사용ᄌᆞ가 이메일을 주고받을 수 없었다고 한다. 관련 내용은 이곳에서 확인할 수 있다.