테크레시피

AWS 정전 다운…일부 하드웨어 복구하지 못할 가능성

AWS(Amazon Web Services)는 클라우드 서비스 전 세계 점유율 32%를 차지하고 있다. 12월 22일 AWS는 정전으로 인해 다운됐고 슬랙, 아사나 같은 서비스가 영향을 받았다고 보고됐다.

AWS는 기업에 있어 필수 인프라지만 2021년 12월에 들어가 대규모 장애가 발생해 넷플릭스와 디즈니+, 코인베이스, 슬랙 등 수많은 서비스에 영향을 줬다. 이와 별도로 지난 11우러에는 자바 Log4j 라이브러리에 존재했던 원격 코드 실행을 가능하게 하는 취약성 CVE-2021-44228(Log4Shell)이 발견됐으며 이게 AWS 계정 탈취에 이용 가능하다고 지적되는 등 AWS 시스템 관리자에게는 수많은 어려움이 벌어지고 있다.

12월 22일 새로 미국 버지니아주 북부에 위치한 US-EAST-1 내 USE1-AZ4 가용 영역에서 정전이 일어나 시스템이 다운된 게 보고됐다. 정전이 일어난 건 태평양 시간 오전 4시 35분. AWS는 아마존 엘레스틱 컴퓨트 클라우드(Amazon Elastic Compute Cloud) JaaS 서비스에서 시작 실패와 네트워크 문제가 발생하고 있다는 걸 감지했다. 26분 뒤 정전이 발생한 뒤 AWS는 고객에게 여전히 작업 부하를 받고 있는 다른 클라우드로 이동할 걸 고객에게 권장했다.

5시 39분에는 전력이 부활하고 서서히 서비스도 복구했지만 6시 51분에는 네트워크 문제가 완전한 복구를 방해하고 있다고 보고하고 있다. 덧붙여 이 장애에 의해 슬랙, 아사나, 트렐로 등 서비스가 영향을 받았다.

또 AWS 상태 보고서에는 전력이 떨어지면 자주 발생하지만 일부 하드웨어가 복구할 수 없거나 영향을 받은 EC2 인스턴스와 EBS 볼륨을 완전 복구하거나 할 수 없을 가능성이 있다. 현상에선 아직 단언할 수 없지만 복구 중인 소수 EC2 인스턴스나 EBS 볼륨 모두를 회복하는 건 어렵다고 생각하고 있다고 표시되고 있었다고 한다.

종종 정전이 발생하는 경우와 마찬가지로 복구할 수 없는 일부 하드웨어가 있을 수 있으며 이로 인해 영향을 받는 EC2 인스턴스와 EBS 볼륨을 완전히 복구할 수 없다. 아직 복구 면에서 시점은 아니지만 남아 있는 소수 EC2 인스턴스와 EBS 볼륨을 모두 복구할 가능성은 낮다. AWS는 2021년 9월에도 US-EAST-1 리전, 12월 15일 US-WEST-1 리전 장애를 보고한다. AWS는 고객에게 단일 가용 영역에 의존하지 않도록 요청했다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사