테크레시피

디지털 시대의 알렉산드리아도서관

기원 전 3세기 경 설립된 알렉산드리아 도서관은 고대 시대에는 가장 큰 박물관이면서 도서관이었다. 지식과 학문의 중심지 역할을 했던 것. 그렇다면 인터넷 시대에 이런 역할을 하는 곳은 어디일까. 바로 인터넷 아카이브라고 할 수 있다. 인터넷 아카이브(The Internet Archive)는 인터넷 시대의 알렉산드리아 도서관이라고 할 수 있는 곳이다.

인터넷상 정보 정확하게 말하면 디지털화된 정보는 물리적 매체와는 달리 저장이 쉽지 않고 곧바로 사라져버릴 수 있다. 웹사이트 같은 것도 마찬가지다. 인터넷 초기 생겨난 사이트는 지금은 사라진 곳이 많다는 걸 떠올리면 알 수 있다. 인터넷 아카이브는 이렇게 사라져가는 웹사이트를 저장하기 위해 브루스터 케일(Brewster Kahle)이 지난 1996년 설립한 비영리단체다.

브루스터 케일은 MIT에서 컴퓨터를 전공한 뒤 텍스트 정보 검색 시스템인 WAIS를 고안했다. 그는 1995년 1,500만 달러에 이를 매각해 자산을 마련했고 1996년 개인적으로 인터넷 백업 작업을 시작한다. 인터넷 아카이브로 불리는 이 프로젝트는 이후 앞서 밝혔듯 한때 세상에서 가장 많은 책을 보유했던 알렉산드리아 도서관에 비유된다. 인터넷 아카이브는 모든 지식을 어디서나 접근 가능하게 한다는 목표를 세웠다. 브루스터 케일은 6년간 개인적으로 100억 개에 달하는 웹페이지를 수집했다.

물론 사건도 있었다. 지난 2007년 미국연방수사국 FBI는 인터넷 아카이브에 있는 이용자명, 주소, 웹사이트 이용 기록 등을 제출하라는 서한을 보내는 동시에 발설 금지 규정을 부과한 바 있다. 하지만 인터넷 아카이브 측은 이를 캘리포니아주로부터 인정받은 도서관이라는 점을 들어 제소했고 소송 결과 FBI는 부과 내용을 철회하고 문서 일부 공개를 합의한 바 있다.

도서관이 정부를 고소하는 사태는 이례적이지만 이 사건 이후 FBI와 인터넷 아카이브 관계는 악화되지 않았다. 대신 인터넷 아카이브는 미국 국립도서관인 미국의회도서관에 웹 복제나 도서 스캔 등 서비스를 제공하고 있으며 특허청의 경우 WAIS 시스템을 이용하고 있다.

다시 얘기로 돌아가면 인터넷 아카이브는 이렇게 캐시 데이터 검색 서비스인 WAIS(Wide Area Information Servers)를 통해 과거 보관한 시점의 웹페이지 정보를 저장할 뿐 아니라 수백만 권에 달하는 전자책, TV프로그램과 영화, 음악, 문서, 소프트웨어 등을 저장하고 있다. 덕분에 예를 들어 1996년 야후 사이트는 어땠는지 찾아보거나 귀중한 녹음 파일 같은 걸 알 수도 있게 해준다.

인터넷 아카이브 본부는 지난 2009년 캘리포니아주 샌프란시스코 프레시디오(Presidio)라는 곳에 위치하고 있다. 건물 자체는 1923년 건설한 것으로 2층에는 예배당이 있다. 물론 일반 교회와 다른 점이 있다면 벽에 서버랙이 진열되어 있다는 것이다. 서버별 가격은 6만 달러이며 10개로 이뤄진 컴퓨터에는 368TB 드라이브가 탑재되어 있다.

건물 내부에 컴퓨터 서버가 늘어선 방에는 푸른빛으로 가득하고 서버에는 22년간 인터넷의 역사가 담겨 있다. 수십억 페이지와 영상 등 인터넷 아카이브가 수집한 데이터가 있는 것. 인터넷은 광활한 만큼 18억 개에 달하는 웹페이지가 존재하고 있지만 2∼5년마다 양은 2배로 늘어난다. 평균 웹페이지 게재 기간은 100일 가량이며 수많은 페이지가 게재한 뒤 5분 남짓만 지나도 잊혀져 버린다. 인터넷 아카이브는 이런 사라져 가는 수많은 웹페이지를 저장하는 사명을 지니고 있다.

2018년 기준 인터넷 아카이브에는 3,380억 개에 달하는 웹페이지 기록이 저장되어 있다. 인터넷 아카이브가 보유한 데이터량은 40PB에 달한다. 지난 2012년 10월 인터넷 아카이브 측은 보유량이 10PB에 도달했다고 밝힌 바 있다는 점을 감안하면 몇 년새 4배나 높아진 것이다. 40PB 중 WAIS를 이용해 검색할 수 있는 데이터는 63%다.

40PB라고 하면 너무 커서 감이 안 올 수도 있다. 예를 들자면 지구상에 살았던 인류가 문자를 발명해서 현대까지 써온 모든 문자보다 약간 적은 정도라고 한다. 또 미국 최대 도서관인 미국의회도서관에 소장된 텍스트를 모두 합치면 28TB라고 한다. 인터넷 아카이브가 보유한 데이터량의 0.1%도 안 되는 것이다.

인터넷 아카이브는 매주 7,000개에 달하는 인터넷 웹페이지 사본을 수집한다. 일정 빈도로 웹페이지 상태를 저장하고 특정 시점에는 웹페이지 내용을 아카이브에 축적시켜간다. 예를 들자면 CNN 웹페이지 내용은 WAIS를 통해 18년 동안 20만 7,000개에 달하는 스냅샷으로 검색할 수 있다. 매주 5억 개씩 새로운 웹페이지가 이렇게 인터넷 아카이브에 저장된다. 위키피디아 페이지는 2,000만, 트위터 2,000만 트윗, 뉴스 기사 1억 개 가량이 매주 새로 저장된다고 한다.

인터넷 아카이브 내에서 이뤄지는 이 엄청난 작업은 모두 비영리로 이뤄진다. 기술 개발이나 소프트웨어 개발 서버, 봇을 운용하는 시스템 등 운영비용은 모두 기부에 의존하고 있다. 또 인터넷 아카이브는 단순히 데이터를 수집 보관할 뿐 아니라 인터넷 역사에 관한 윤리적 문제 해결에도 노력을 기울이고 있다.

물론 인터넷은 단순히 계산해도 초당 70TB에 달하는 속도로 성장하고 있다고 한다. 아무리 큰 서버를 보유했더라도 인터넷 아카이브에 모든 걸 망라하는 걸 불가능하다. 또 이메일이나 클라우드상 데이터 같은 개인 데이터는 인터넷 아카이브의 아카이빙 대상이 아니다. 이런 점에서 인터넷 아카이브 측은 어떤 웹페이지를 백업할지 우선순위를 고려해 판단한다. 여기에는 기여도 등이 반영된다. 또 특정 웹사이트의 저장 수준은 액세스 수에 따라 중점 확인하는데 이런 기준에는 유튜브나 위키피디아, 레딧, 트위터 같은 걸 예로 들 수 있다. 또 전 세계 정부와 NGO, 뉴스 관련 사이트도 대상이다. 인터넷 아카이브는 600명에 달하는 전문가와 파트너 협력을 통해 이런 원칙에 따라 백업을 진행한다.

또 WAIS를 통한 웹 페이지 검색 서비스는 가짱 뉴스가 퍼지기 쉬운 시대에도 중요한 도구가 될 수 있다. 올바른 정보가 인터넷 아카이브에 저장되어 있거나 반대의 경우라도 거짓 여부를 판별하는 데 도움이 될 수 있기 때문이다. 실제로 인터넷 아카이브 측은 지난 2016년 11월 미국 대통령 선거에 당선된 트럼프 대통령의 움직임을 주시, 그의 당선 이후 인터넷 아카이브가 수집한 데이터 사본을 미국 정부의 권력이 미치지 않는 캐나다에 설치하겠다는 계획을 발표하기도 했다.

고대 알렉산드리아 도서관은 전 세계 문헌을 수집하는 걸 목표로 건설했다. 인터넷 아카이브의 목표는 제2의 알렉산드리아 도서관이다. 물론 세상의 모든 데이터를 저장할 수는 없지만 가장 큰 새로운 시대의 알렉산드리아 도서관이 될 것이라는 건 분명하다. 인터넷 아카이브는 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독