테크레시피

멈춰버린 페이스북, 이유는?

지난 10월 5일 0시 40분경 페이스북 시스템에 장애가 발생해 모든 시스템이 다운됐다. 페이스북 뿐 아니라 페이스북이 소유한 인스타그램, 왓츠앱, 메신저, 오큘러스 등에도 시스템 실패가 발생했고 이날 7시경까지 액세스할 수 없는 상태가 되어 있었다. 인터넷 인프라 기업인 클라우드플레어(Cloudflare)가 페이스북이 전 세계적으로 다운되어 버린 원인에 대해 설명했다.

시스템 장애 영향으로 페이스북과 관련 서비스인 왓츠앱이나 인스타그램 등 액세스할 수 없게 됐다. DNS에서 이런 서비스명 확인이 실패하면 서비스를 지원하는 인프라 IP 주소 일부도 도달할 수 없게 된다. 클라우드플레어는 마치 누군가가 데이터센터 케이블을 일제히 뽑아 인터넷에서 떼어낸 것 같았다고 밝혔다.

클라우드플레어는 페이스북 시스템 장애에 따라 DNS 확인자인 1.1.1.1에 문제가 있을 가능성을 생각하고 10월 5일 1시 51분경 내부 사건 조사(Facebook DNS lookup returning SERVFAIL)를 시작했다. 조사 결과 문제의 원인이 된 건 BGP(Border Gateway Protocol)였다는 걸 알 수 있었다. BGP는 인터넷에서 자율시스템 그러니까 네트워크간 라우팅 정보를 교환하기 위한 구조로 간단하게 말하면 목적지를 입력하면 경로를 보여주는 내비게이션과 같은 역할을 인터넷에서 담당하고 있다.

개별 AS는 각각 AS번호를 갖고 있다. 모든 AS번호는 BGP를 사용해 인터넷에 연결 루트를 발표해야 한다. 그렇지 않으면 이 AS는 누구에게도 발견되지 않고 연결되는 것도 아니다. 또 페이스북과 인스타그램, 왓츠앱 AS번호는 AS32934에서 페이지를 볼 수 있다. 페이스북은 자사에서 AS번호를 검색해 인터넷 서비스 제공 업체를 통하지 않고 직접 인터넷에 연결되어 있다.

그래서 클라우드플레어는 글로벌 네트워크에서 확인된 모든 BGP 업데이트와 공지사항을 추적했다. 이에 따라 시스템 오류가 확인됐고 5일 0시 40분경 페이스북에서 라우팅 변경 피크가 보고됐다.

1시 50분경 DNS 서버가 오프라인 상태가 되고 직후 클라우드플레어 엔지니어가 1.1.1.1이 페이스북닷컴을 해결할 수 없는 것으로 나타났다. 시스템 장애를 의심할 수 있는 것으로 결과적으로 페이스북과 관련 서비스는 사실상 인터넷에 연결되지 않게 되어 버렸다는 것이다.

그리고 클라우드플레어는 페이스북이 DNS 접두사에 대한 경로 발표를 중지한 것으로 나타났다. 다시 말해 이 시점 적어도 페이스북 DNS 서버를 사용할 수 없다는 것이다. 따라서 클라우드플레어 DNS 확인자인 1.1.1.1은 페이스북닷컴이나 인스타그램닷컴 IP 주소를 요청하는 쿼리에 응답할 수 없게 됐다.

클라우드플레어에 따르면 페이스북과 관련 서비스는 규모가 크기 때문에 오류가 발생하면 언제나 몇십 배 요청 수를 일으키는 지연이나 제한 원인이 되어 버린다. 실제로 1.1.1.1에서 보인 페이스북과 왓츠앱, 메신저, 인스타그램 요청수는 15시 40분경부터 평소보다 30배 가까이 급증하고 있다. 페이스북 관련 DNS 요청 증가를 방지하기 위해 전 세계 DNS 확인자가 페이스북 관련 도메인 해결을 중지했다.

또 페이스북이 다운된 여파로 트위터와 시그널, 텔레그램, 틱톡 등 다른 소셜미디어 플랫폼에 대한 DNS 쿼리도 증가했다. 5일 4시 52분에는 페이스북 CTO가 페이스북을 이용한 서비스 중단에 영향을 받은 모든 사람에게 진심으로 사과하며 네트워크 문제가 발생하고 있으며 팀은 가능하면 빠르게 디버깅과 복구에 최선을 다하고 있다고 트윗을 올렸다. 또 보도에 따르면 이번 시스템 장애는 모든 데이터센터를 상호 연결하는 네트워크 백본이 영향을 주고 있다고 밝히고 있다.

5일 6시경 페이스북 네트워크에서의 BGP 활동이 업데이트되어 6시 20분경 1.1.1.1에서 페이스북닷컴 이름을 확인할 수 있는지 확인된 것. 6시 28분경 페이스북 자체 복구가 확인됐다. 이번 시스템 장애에 대해 페이스북 마크 주커버그 CEO는 페이스북과 인스타그램, 왓츠앱, 메신저는 현재 온라인으로 돌아왔다며 폐를 끼쳤고 고객이 소중한 사람과의 관계를 유지하기 위해 자사 서비스를 얼마나 이용하고 있는지를 생각하고 있다고 밝혔다.

페이스북 시스템 복구에 시간이 걸릴 것에 대해 한 보안 연구자는 업데이트는 원격 사용자가 수정할 수 없으며 물리적 액세스 권한을 가진 사람은 네트워크와 논리적 액세스 권한을 갖고 있지 않았기 때문에 복구가 지연됐다고 설명하고 있다. 하지만 처음에는 이번 장애 원인이 된 BGP 엄데이트 실패가 왜 일어났는지에 대한 자세한 설명을 밝히지 않았다. 이후 페이스북 엔지니어링팀은 데이터센터간 네트워크 트래픽을 조정하는 백본 라우터 구성 변경이 원인이 되어 실패했다는 성명을 발표했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular