구글, 2500만권 도서 스캔 DB 보유하고 있지만…

이원영 기자

2024.11.27

구글은 한때 지금까지 출판된 거의 모든 도서를 스캔하고 저작권이 만료된 도서에 원클릭으로 접근할 수 있게 하는 프로젝트를 추진했다. 하지만 이 프로젝트는 사법부 장벽에 막혀 도서2,500만 권을 스캔한 데이터베이스는 아무도 읽지 못한 채 잠들어 있다고 한다.

구글 공동창업자인 래리 페이지는 구글을 설립한 초기부터 도서를 디지털화해 접근 가능하게 하는 프로젝트에 관심을 갖고 있었다. 애초 구글 검색 근간이 된 학생 프로젝트도 단일 통합 유니버설 디지털 도서관을 실현하기 위한 기술 일환으로 고안된 것이라고 한다.

구글이 궤도에 오른 2002년 페이지는 당시 도서 디지털 스캔에서 세계 최첨단을 달리고 있던 미시간 대학에 접근했다. 그리고 도서관 책을 구글이 빌려 스캔을 하고 그 디지털 데이터를 대학이나 도서관에 제공하는 계약을 제안했다. 2004년까지 구글은 스캔을 시작했고 미시간 대학뿐 아니라 하버드 대학, 스탠포드 대학, 옥스퍼드 대학, 뉴욕 공립도서관 및 기타 수십 개 도서관 시스템과도 계약을 맺었다.

도서관에서 반출된 책은 트럭에 가득 실려 구글 스캔 센터로 운반되어 도서관이나 서점에서 볼 수 있는 카트에 실려 인간 운영자에게 전달됐다. 구글이 구축한 도서 스캔 장치에는 책 페이지를 촬영하는 카메라 4대와 종이 곡률을 측정하는 레이더가 탑재되어 있었으며 운영자가 1장씩 수동으로 페이지를 넘기고 풋페달을 누르면 페이지를 스캔할 수 있는 구조로 되어 있었다. 이 스캔 장치는 1시간에 1,000페이지 속도로 도서를 스캔할 수 있었다고 한다.

구글은 휘어진 페이지를 보정하는 알고리즘을 개발하는 등 스캔에 시간이 걸리는 문제점 대부분을 소프트웨어로 해결했다. 정점에는 소프트웨어 엔지니어 50명이 고용되어 원본 이미지 데이터를 텍스트로 변환하는 광학 문자 인식 소프트웨어, 이미지를 처리하는 루틴, 페이지 번호와 각주를 변환하는 시스템, 관련성에 따라 책을 순위 매기는 알고리즘 등을 개발했다고 한다.

구글은 수년에 걸친 시간과 추정 4억 달러 비용을 들여 도서 2,500만 권을 스캔하는 데 성공했다. 구글은 원래 도서 전문을 공개할 의도는 없었고 어디까지나 도서 전문 검색 서비스 그러니까 구글 북스를 만드는 게 목적이었기 때문에 서비스 제작은 공정 사용에 의해 보호된다고 생각했다.

하지만 자신들도 모르는 사이에 방대한 도서가 도서관에서 대출되어 구글에 의해 스캔되고 있다는 걸 알게 된 저자와 출판사는 이 시도에 제동을 걸었다. 2005년 업계 단체인 전미작가협회가 집단소송을 제기하자 출판사 단체도 이에 합류해 디지털 저작권을 둘러싼 구글 대 출판업계 법정 투쟁이 시작됐다.

기술 업계가 콘텐츠 배포를 둘러싸고 기존 업계와 대립하는 사례는 결코 드문 일이 아니다. 그리고 레코드나 라디오에서의 음악 방송을 둘러싼 소송이 음악을 판매 또는 방송할 때마다 권리 소유자에게 라이선스료를 지불한다는 구조 만들기로 이어져 결과적으로 음악가 새 수입원이 되는 등 이런 소송이 쌍방에게 이익이 되는 형태로 끝나는 경우도 있다.

실제로 구글을 고소한 저자와 출판사는 수년 만에 쌍방에게 이익이 되는 타협점을 찾았다. 그건 이미 서점에는 존재하지 않는 절판본 디지털 데이터를 판매하는 새로운 시장의 개척이었다. 오랫동안 출판사나 저자에게 절판본은 새로운 이익을 가져다주지 않는 죽은 자산이었지만 구글 대규모 디지털화를 통한 데이터 판매가 가능해지면 출판사나 저자에게 새로운 수익원이 된다. 또 구글 플랫폼에서 디지털 도서 판매를 하는 것으로 구글에게도 이익이 있다.

당시 전미 출판협회 이사장이었던 리처드 사노프는 독자와 연구자를 위해 무언가 특별한 일을 할 기회가 있다는 것을 깨달았다며 업계 절판 리스트에 빛을 비추고 발견과 소비라는 2가지 일을 실현할 수 있다는 것을 깨달았다고 말했다.

구글 디지털 스캔 데이터를 이용해 절판본 디지털 판매를 실현한다는 목표가 생기자 출판업계가 구글 북스와의 소송에서 승리하는 것에 대한 의미가 줄어들었다. 오히려 구글 북스처럼 도서 일부를 표시하는 시스템은 서점에서는 찾을 수 없는 절판본을 독자가 발견하는 데 도움이 되므로 디지털 판매 매출 촉진으로 이어질 가능성도 있다.

또 절판본 디지털 판매를 둘러싼 문제 중 하나로 오래된 도서는 어떤 도서가 디지털 판매 가능한지 현재 저작권 보유자가 누구인지 등을 확인하는 비용이 높다는 게 꼽힌다. 하지만 전미 작가협회와 구글 북스 소송은 집단소송이므로 그 판결은 이론적으로 말하면 미국 도서관에 있는 도서 거의 모든 저자와 출판사를 법적으로 구속할 수 있다. 다시 말해 집단소송을 통해 출판업계와 구글 측이 좋은 타협점을 찾아 여러 문제를 피해 절판본 디지털 판매를 실현할 가능성이 발견됐다는 것이다.

여기서 출판업계와 구글 이해관계가 일치해 2008년에는 구글이 출판업계에 총액 1억 2,500만 달러 배상금이나 소송비용을 지불하는 대신 구글 북스에 라이선스 허가가 주어지고 구글은 향후 디지털 데이터 판매 수익 63%를 출판사나 저자에게 분배한다는 화해안이 제출됐다. 또 절판된 책은 기관 구독 데이터베이스로 패키지화되어 대학에 판매되는 것도 정해졌다.

캘리포니아 대학 버클리 캠퍼스 법학 교수인 파멜라 새뮤얼슨이 아마도 지금까지 시도된 것 중 가장 모험적인 집단소송 화해라고 부른 이 화해안이 성립되면 구글과 출판업계 양측에 새로운 수익원이 생길 가능성이 있었다.

하지만 이에 대학 도서관과 구글 경쟁사가 반발했다. 대학 도서관 관계자와 연구자 주장은 디지털 도서 이용 라이선스가 구글에 독점되어 학술지 시장에서 일어난 것과 같은 가격 인상이 일어날 게 아니냐는 것이었다. 한편 구글 경쟁사인 마이크로소프트와 아마존은 검색 엔진이나 디지털 도서 판매에 있어 구글이 독점적인 힘을 얻는 것을 우려했다.

이런 이의 제기를 받아 화해안 조사를 실시한 법무부는 구글 경쟁사가 같은 권리를 얻으려면 도서를 대량으로 스캔해 집단소송을 당하고 화해를 시도한다는 있을 법하지 않은 프로세스를 거쳐야 한다며 화해안에 부정적인 견해를 보였다. 결과적으로 2011년에 화해안은 기각됐고 집단소송은 구글 북스 행위는 공정 사용이라는 판결로 2016년 구글 측 승소로 끝났다. 그리고 대량 절판본이 디지털 판매되는 미래는 실현되지 않았다.

화해안이 기각된 이유에 대해 구글 엔지니어링 리더로서 화해안 책정에 관여한 댄 클랜시는 도서관 관계자나 학술 도서 저자가 화해안에 반대한 게 컸을 것이라고 지적했다. 도서관 등이 이토록 적극적으로 활동하지 않았다면 법무부가 관여하는 일은 없었을 것이라는 것.

아이러니하게도 화해안에 반대했던 이들 대부분은 집단소송과 화해라는 프로세스가 없어도 절판본 디지털 판매가 가능해질 것이라고 생각했다. 화해안에 반대했던 인물조차도 이 비전이 실현 가능하다는 게 명백해진 지금 이 비전을 실현하려 하지 않는 건 비극일 것이라고 기록했다.

하지만 화해안 기각으로부터 10년 이상이 경과한 지금도 의회에 절판본 디지털 판매를 가능하게 하도록 촉구하는 움직임은 진전되지 않고 있다. 확실히 누군가가 정치자금을 투입해 도서 라이선스 제도를 바꾸려고 할 가능성은 낮다고 생각된다. 구글에 대한 집단소송이 이런 종류 개혁을 할 수 있는 아마도 유일한 장이 된 건 우연이 아니다. 구글은 이를 실현할 이니셔티브와 자금을 가진 유일한 기업이었던 것이다.

구글은 집단소송에서 승소했지만 오래된 도서 스캔을 거의 중단했으며 2,500만 권 도서가 스캔된 데이터베이스는 구글 어딘가에 잠들어 있다. 데이터베이스는 50페타바이트~60페타바이트 용량에 달한다고 하는데 이를 볼 수 있는 건 데이터베이스를 잠그는 책임을 맡은 엔지니어 몇 명뿐이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사