테크레시피

구글 “유출된 검색 알고리즘 내부 문서는 진짜”

구글 직원이 데이터와 API, 모듈 다루는 법을 익히기 위해 사용했다는 2,500페이지가 넘는 내부 문서 구글 API 콘텐츠 웨어하우스(Google API Content Warehouse)가 유출됐다. 이를 통해 구글이 검색 사용자 정보나 크롬 데이터 등을 어떻게 활용해왔는지 실태가 드러났다. 내용을 살펴본 SEO 업계 관계자는 포함된 정보 대부분이 2024년 3월 시점 꽤 최신 것이라고 밝히고 있다.

이번에 유출된 내부 문서는 웹사이트 분석 도구를 개발/제공하는 스파크토로(SparkToro) 랜드 피시킨(Rand Fishkin) 대표가 익명 관계자와 공유해 공개한 것. 내용에는 일부 오래된 정보가 포함되어 있지만 대부분 2024년 3월 시점 최신 정보라고 한다.

피시킨 대표와 정보를 공유한 익명 관계자는 마케팅대행업체이자 SEO 전문업체인 EA 이글 디지털 에르판 아지미(Erfan Azimi) CEO라고 직접 밝혔다.

이 내부 문서는 2024년 3월 13일 yoshi-code-bot이라는 봇이 깃허브 공개 리포지토리에 올린 것으로 오작동에 의한 것이며 의도적 정보 유출이라기보다는 우연히 공개됐던 정보가 발견된 것으로 보인다.

검색엔진이 검색결과를 어떤 순서로 표시하는지에 대한 알고리즘 작동 방식은 SEO에 중요하다. 2023년 러시아 최대 검색엔진 얀덱스 소스코드가 유출됐을 때, 얀덱스 검색결과가 구글과 많이 비슷한 점이 있어 구글 SEO에도 참고가 되는 정보라고 화제가 된 바 있다.

방대한 문서 중 일부를 정리하면 먼저 문서에는 2,596개 모듈, 14,014개 속성에 대한 기술이 있다. 검색결과 표시 랭킹에서 고려되는 요소에 대한 기술은 있지만 어떤 요소가 어떤 가중치를 갖는지에 대한 구체적인 기술은 없없다. 콘텐츠가 링크 타깃과 불일치, SERP(검색결과페이지)에 대한 사용자 불만, 제품 리뷰, 로케이션, 완전일치 도메인, 성인물 등 요소로 페이지랭크가 내려간다. 구글은 과거 인덱싱한 페이지 모든 변경사항을 기록하지만 링크를 분석할 때에는 최근 20회 변경 내역만 참조한다. 페이지랭크는 여전히 구글 랭킹에서 중요한 위치를 차지하고 있다. 구글은 badClicks, goodClicks, lastLongestClicks, unsquashedClicks 등 다양한 측정치로 클릭을 측정하며 성과로 이어진 클릭이 중요하다. 또 긴 콘텐츠는 잘릴 수 있지만 짧은 콘텐츠는 독창성에 따라 0-512 점수를 부여한다. 건강, 뉴스 등 YMYL(Your Money Your Life) 콘텐츠에도 점수를 부여한다.

그 뿐 아니라 검색 상위 랭킹을 위해서는 브랜드가 가장 중요하다. 구글은 콘텐츠 작성자 정보를 저장하고 특정 문서 저자인지 판단하려 한다. 또 2011년 판다 업데이트 후 존재를 시사했다가 부인했던 siteAuthority를 활용 중이라고 한다. 검색 랭킹에 크롬 데이터를 활용하는 ChromeInTotal 모듈이 존재한다. 선거, 코로나19 관련 특정 도메인을 화이트리스트에 등록한 모듈(isElectionAuthority, isCovidLocalAuthority)이 존재한다. 소규모 사이트/블로그를 위한 모듈(smallPersonalSite)이 있지만 랭킹 가중치는 불명이다. titlematchScore 기능으로 페이지 제목과 내용 쿼리 일치 여부 측정을 추정한다.

구글은 지금까지 페이지 랭킹에 크롬 데이터를 활용하지 않는다고 설명해왔지만 실제로는 크롬 데이터를 활용하는 모듈이 있었던 것으로 드러나 마이크 킹 CEO는 거짓말했다는 표현이 가혹하지만 이 경우 사용할 수 있는 유일한 정확한 말이라고 비판했다.

한편 이 내부 문서에 대해 의견을 거부해왔던 구글이 마침내 진짜라는 걸 인정했다.

보도에선 이 문서에 실린 정보가 오래됐을 가능성, 교육 목적으로만 사용되고 있을 가능성, 수집은 됐지만 검색과 관련해서는 사용되지 않을 가능성 등을 제기하면서도 웹을 구성하는 가장 중요한 시스템 중 하나인 구글 검색 내부를 전례 없는 수준으로 엿볼 수 있는 자료지만 여전히 불명확한 부분도 많다고 표현하고 있다.

구글 측은 맥락에서 벗어난 오래된, 불완전한 정보를 바탕으로 검색에 대해 부정확한 추측을 하지 말라며 검색 시스템 작동 방식과 중요 요소에 대해 광범위한 정보를 공유해왔고 동시에 검색 결과 완전성을 조작으로부터 보호하기 위해 노력해왔다고 밝혔다.

이 관계자는 유출된 내부 문서가 진짜라는 것을 인정하면서도 맥락에서 벗어난 오래되고 불완전한 정보라고 표현했다. 하지만 이 문서를 공개한 웹사이트 분석 툴 개발업체 스파크토로(SparkToro) 랜드 피시킨과 SEO 컨설팅 기업 아이풀랭크(iPullRank) 창업자 마이크 킹은 일부 오래된 정보가 포함되어 있지만 대부분 2024년 3월 시점 최신 정보라고 확인했다.

아울러 보도에선 이 문서가 SEO 분야, 마케팅, 퍼블리싱 업계 전반에 파문을 일으킬 가능성이 높다고 지적하고 있다. 구글은 그간 검색 랭킹 알고리즘 세부사항을 공개하지 않았지만 비즈니스에서 인터넷을 활용하는 소규모 독립 미디어에서부터 온라인 스토어에 이르기까지 모든 사용자에게 인터넷을 지배하는 구글이 뭘 생각하는지에 대한 통찰을 제공할 수 있을 것이라는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독