테크레시피

얀덱스 소스 코드 유출…검색 순위 결정 요인은?

러시아 최대 검색엔진이자 전 세계 4위 검색엔진인 얀덱스(Yandex)로부터 소스 코드가 유출됐다. 해커에 의한 공격이 아니라 전 직원이 깃 저장소에서 훔친 것으로 개인 정보는 포함되어 있지 않지만 알고리즘 내에서 이용되는 1992개 검색 랭킹 결정 요인이 밝혀지고 있다고 한다.

분석에 따르면 1992개 요인 중 첫 번째는 구글 알고리즘이어야 하는 페이지랭크였다. 그 밖에 얀덱스에서 검색 랭킹 상위에 오르는 요소는 페이지가 너무 오래되지 않아야 한다는 것, 많은 유기적 트래픽이 있어야 한다는 것, URL에 포함된 숫자와 슬래시 수가 적다는 것, 검색 가이드라인 위반이나 블랙햇 SEO 등에 의한 패널티가 부과되지 않았는지 나타내는 값, 신뢰성이 높은 서버에서 호스팅되고 있는지와 어떤 도메인 상위 페이지에서 링크되거나 호스팅되는지, URL에 키워드가 포함되어 있는지 등이다.

이에 따르면 페이지랭크와 많은 텍스트 알고리즘과 같은 구글과 비슷한 부분이 많다고 보고됐다. 어디까지나 구글과는 별개지만 검색 결과는 70%가 유사하다는 것. 이번에 유출된 얀덱스 소스 코드를 SEO적으론 상당히 참고가 되는 정보라는 평가다.

또 얀덱스 코드에서 함수명이나 변수명, 출력 메시지 등에서 인종차별적 용어가 이용되고 있었다고 한다. 이 중 N워드는 워커를 대체하는데 사용되는 경향이 있었다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사