테크레시피

10년간 존재했던 온라인 콘텐츠 25%는 이미 사라졌다

퓨리서치 조사에 따르면 2013∼2023년 사이에 인터넷상에 존재했던 콘텐츠 중 4분의 1이 이미 사라져 접근할 수 없게 됐다고 한다.

퓨리서치는 먼저 비영리단체(Common Crawl)가 수집한 크롤링 데이터를 바탕으로 2013년부터 2023년 사이 존재했던 콘텐츠에서 무작위로 URL 99만 9,899개를 추출해 콘텐츠가 남아있는지 조사했다. 그 결과 전체 콘텐츠 4분의 1이 접근할 수 없는 상태가 되어있었다. 연도별로 접근 불가능한 콘텐츠는 조사 범위 중 가장 오래된 2013년 콘텐츠 38%가 접근 불가능했고 불과 1년 전인 2023년 콘텐츠조차 8%가 이미 접근할 수 없게 되어있었다고 한다.

뉴스 사이트의 경우 페이지 23%에 최소 1개 이상 링크가 끊겨있었고 정부 웹사이트도 페이지 21%에 최소 1개 이상 링크가 끊겨있었다. 뉴스사이트 링크 끊김 여부와 규모 간에는 상관관계가 없었지만 정부 웹사이트의 경우 지방일수록 링크 끊김이 많았다. 또 영어 위키백과 5만 건 기사를 대상으로 조사한 결과 기사 82%에 참고문헌 등으로 웹사이트 링크가 기재되어 있었지만 기사 53%에 최소 1개 이상 링크가 끊겨있었다.

더불어 퓨리서치는 엑스에서 2023년 봄 3개월 동안 실시간으로 게시물을 수집해 3개월간 추적 조사를 실시했다. 그 결과 게시물 18%가 몇 개월 뒤에는 사라졌다. 사라진 게시물 중 60%는 게시한 계정이 비공개가 되거나 정지 또는 삭제된 경우였고 나머지 40%는 게시물만 삭제된 경우였다. 경향상 터키어나 아랍어 게시물이 삭제되기 쉬웠고 게시물 40% 이상이 3개월 이내에 사라졌다. 또 프로필 설정을 초기값 그대로 둔 계정에서 작성된 게시물일수록 접근 불가능해질 가능성이 높았다. 다만 사라진 게시물 6%는 나중에 계정 복구나 비공개에서 공개로 전환되면서 다시 접근할 수 있게 됐고 재표시된 게시물 90%는 조사 기간 내내 그대로 남아있었다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular