테크레시피

“더 자세하게” 기능 개선한 구글봇 크롤링 통계 보고서

구글은 웹사이트 각종 통계 정보를 수집하기 위해 운영하는 크롤러 구글봇(Googlebot)에 대한 더 나은 이해를 위해 크롤링 통계 보고서(Crawl Stats report)를 개선했다고 발표했다.

구글은 수많은 전 세계 웹사이트를 파악하기 위해 웹 문서나 이미지를 기계적으로 취득해 데이터베이스화하는 크롤러 구글봇을 운영하고 있다. 구글봇은 사용자가 웹 콘텐츠를 검색하는 것과 마찬가지로 웹페이지를 보고 페이지 링크를 따라 웹페이지에 대한 데이터를 구글 데이터베이스에 축적하고 있다.

자사 사이트를 운영하는 경우 크롤링 통계 보고서에서 구글봇이 얻은 통계를 지금까지 알 수 있었다. 2020년 11월 24일 발표된 내용은 크롤링 통계 보곳ㅇ를 개선하는 것으로 앞으로 응답 코드별로 그룹화된 요청 총수와 크롤링한 파일 형식 크롤링 목적, 구글봇 종류 뿐 아니라 호스트 상태에 대한 자세한 정보나 사이트에서 요청이 발생한 URL 등을 크롤링 통계 보고서에서 볼 수 있게 될 뿐 아니라 여러 하위 도메인이 한 곳에 있는 도메인 등록 등을 지원한다.

이런 개선 중에서도 오버타임 차트(Over-time charts)는 요청 총수와 다운로드 평균 크기, 평균 응답시간 변화를 볼 수 있다. 그룹크롤데이터(Grouped crawl data)는 취득한 URL 종류나 형식 등 통계 데이터를 볼 수 있는 새로운 기능이다. 호스트 상태 이슈(High level & detailed information on host status issues)는 90일간 장애 로그를 확인 가능하다. 여러 호스트를 그룹화한 도메인 속성의 경우 호스트당 상태도 확인할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독