미국 캘리포니아주 샌프란시스코에 본사를 둔 비영리 단체인 인터넷아카이브가 운영하는 서비스인 웨이백 머신(Wayback Machine)은 삭제되거나 비공개가 되어 볼 수 없게 된 사이트 등을 열람할 수 있는 서비스다. 지난 5월 28일 인터넷아카이브는 웨이백 머신에 대해 초당 수만 건 요청이 몰려 2시간에 걸쳐 웨이백 머신 서비스가 다운됐다고 발표했다.
인터넷 아카이브 창업자인 브루스터 케일은 5월 28일 웨이백 머신에 공개된 퍼블릭 도메인 OCR 파일에 대한 초당 수만 개 요청이 아마존 AWS에 있는 64개 가상 호스트에서 전송됐다고 보고했다. 그에 따르면 웹 표준에 있어서도 초당 수만 건 요청은 처리할 수 없을 정도로 과잉 액세스라고 한다. 대량 액세스로 인터넷아카이브 모든 서비스가 1시간에 걸쳐 다운됐다. 인터넷아카이브는 원래 휴일이던 일요일 오후 긴급 복구를 한 엔지니어에게 감사를 표명한 바 있다. 대량 액세스의 경우 인터넷아카이브는 특정 IP 주소를 차단해 서비스를 백업하고 다운에서 복구했다.
하지만 몇 시간 뒤 다른 64개 IP 주소가 앞서와 비슷한 대량 요청을 전송헀다. 그 결과 웨이백 머신이 다시 다운되어 서비스가 일시 중지됐다. 이 때 원하는 서버가 제대로 작동하지 않고 요청이 거부됐다는 걸 나타내는 502 오류 화면이 표시됐다. 502 오류는 보통 서버에 대한 액세스가 집중되고 대량 부하가 걸리고 일시적인 통신 오류가 발생하는 경우 표시된다.
대량 요청이 전송된 요인에 대해 인터넷아카이브는 인터넷아카이브 텍스트를 비정상적인 속도로 수집하고 학습에 도움을 주려는 AI 개발 기업 것으로 추정하고 있다. 2번째 시스템 다운 1시간 뒤 인터넷아카이브는 웨이백 머신을 복구했다고 보고했다.
한편 보도에선 웨이백 머신으로 웹사이트 아카이빙을 할 때에는 레이트 제한이 설치되어 있지만 인터넷아카이브는 OCR 파일을 다운로드할 때 제한을 잊은 게 틀림없다고 추측하고 있다. 이번 서비스 다운에 대해 케일은 웨이백 머신을 한 번에 대량으로 사용하고 싶다면 상식적인 속도로 천천히 다운로드를 실시해달라며 대규모 AI에서의 프로젝트 등을 시작할 경우에는 문의하면 도움을 줄 수 있다고 밝혔다. 그는 또 인터넷아카이브와 웨이백 머신을 사용할 때에는 서비스를 다운시키는 극단적 사용은 삼가해달라고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.