테크레시피

해적판 도서 검색엔진 “전 세계 모든 책 보존 목표로…”

세계 최대 규모 전자서적 데이터베이스인 제트라이브러리(Z-Library)가 운영자 체포와 기소 등 법적 조치를 받은 데 맞서 비영리 온라인 라이브라리 메타서치 엔진으로 만들어진 게 바로 안나아카이브(Anna’s Archive)다. 안나아카이브가 만들어진 당초에는 전 세계 서적 5%를 보존할 수 있다고 밝혔으며 카탈로그인 월드캣(WorldCat)에서 정보를 추출하는 게 밝혀졌다.

인터넷 최대 해적판 전자책 데이터베이스 중 하나인 제트라이브러리는 1,000만 권 이상 전자책과 8,600만 건 이상 학술 기사를 제공하고 있으며 매달 수백만 명이 액세스를 해왔다. 하지만 2022년 11월 4일 갑자기 폐쇄하고 2주가 지난 11월 16일에는 운영자인 러시아인 2명에 대한 체포와 기소가 발표됐다. 제트라이브러리는 몇 개월 뒤 부활했다.

제트라이브러리는 급등하는 교과서를 입수할 수 없던 학생 등 매달 수백만 사용자가 의지하던 곳이다. 갑자기 폐쇄됐을 때에는 알렉산드리아 도서관 방화가 현대에 일어난 것 같다는 한탄이 나오기도 했다. 제트라이브러리에 대한 법적 조치에 대항해 만들어진 안나아카이브에선 책, 논문, 만화, 잡지, 기타 문서를 검색하기 위한 중심적 장소가 필요하다고 느껴 정보의 자유로운 흐름과 지식, 문화의 보존을 믿는다는 목적을 선언했다.

안나아카이브는 저작권으로 보호되는 콘텐츠를 직접 다루지 않게 위험을 피하고 있지만 법적 위험도 잘 알고 있다고 말한다. 하지만 인류의 문자 유산을 보존하기 위해선 이런 위험을 취할 가치가 있다고 믿는다고 덧붙이고 있다.

월드캣은 비영리 도서관 목록인 OCLC(Online Computer Library Center)에 참가하는 7만 1,000개 이상 도서관 장서를 목록화한 인덱스로 90개국 이상에서 도서관이 참여해 정보를 모으고 있다.

월드캣 데이터베이스는 독점적이며 자유롭게 사용할 수 없지만 안나아카이브는 데이터베이스 제한을 피하고 자체 사본을 만든다. 안나아카이브는 OCLC는 비영리 단체지만 비즈니스 모델은 데이터베이스 보호를 필요로 한다며 안나아카이브는 최종적으로 중복을 빼면 7억 건 데이터가 기록되어 3TB 정보 메타 데이터를 추리는데 성공했다고 한다.

안나아카이브가 월드캣에서 수집한 건 메타 데이터이며 직접 도서 해적판 사본을 얻을 수 없기 때문에 일반 사용자에게 유용하지 않은 경우가 대부분이다. 하지만 안나아카이브 측은 전 세계 모든 도서 지도를 만드는데 큰 이정표가 될 것이라며 전 세계 모든 책을 보존하려 하지만 이렇게 하려면 전 세계 모든 책은 얼마나 될지 분모가 필요하며 메타 데이터를 수집해 이제 도서관에서 많은 사람과 기관이 작업해야 할 이니셔티브 기초가 되고 싶다고 밝히고 있다.

안나아카이브는 대규모 언어 모델을 이용하는 기업 등에 대해서도 호소하고 있다. 대규모 라이브러리는 LLM 학습에 이상적이기 때문에 안나아카이브는 컬렉션에 빠르게 액세스할 수 있도록 특별 프로그램을 시작해 협력하고 있다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독

Most popular