테크레시피

위키미디어재단 “집요한 AI 스크래핑, 인프라에 부담”

최근 생성 AI이 급부상하며 모델 훈련과 추론에 사용되는 콘텐츠 수요가 급증하고 있으며 일부 AI 기업은 크롤러라고 불리는 웹 스크래핑용 봇을 사용해 데이터를 수집하고 있다. 온라인 백과사전 위키피디아를 운영하는 위키미디어 재단이 위키미디어 커먼즈 상 콘텐츠에 대한 트래픽이 최근 기하급수적으로 증가하고 있다고 보고했다.

위키미디어 재단은 위키피디아 뿐 아니라 퍼블릭 도메인의 이미지와 동영상, 기타 파일을 저장하는 미디어 파일 리포지토리인 위키미디어 커먼즈도 운영하고 있으며 저장된 콘텐츠 수는 1억 4,400만 점에 달한다.

2024년 1월 이후 위키미디어 커먼즈에서 콘텐츠 다운로드에 사용되는 대역폭이 50% 증가했다고 보고되고 있다. 위키미디어 재단에 따르면 이 급격한 증가는 인간 사용자에 의한 게 아니라 주로 위키미디어 커먼즈 이미지 카탈로그에서 오픈 라이선스 이미지를 스크래핑해 AI 모델에 훈련용 이미지를 공급하는 봇에 의한 것이라고 한다.

위키미디어 재단이 보유한 서버는 관심이 높은 이벤트 중에 인간에 의한 갑작스러운 트래픽 급증이 발생해도 견딜 수 있도록 구축되어 있지만 크롤러에 의한 트래픽량은 전례가 없으며 리스크와 비용이 증가하고 있다고 한다. 위키미디어 커먼즈 대역폭 추이를 보면 2024년 초부터 꾸준히 대역폭이 증가하고 있으며 기세는 수그러들지 않고 있다. 이처럼 기본 대역폭이 증가하면 대통령 선거나 지미 카터 전 대통령 사망 같은 돌발적인 이벤트에 대응할 여지가 줄어들고 상당한 시간과 리소스가 인간 사용자 이외 트래픽 대응에 소비되게 된다.

위키미디어 재단은 데이터 센터 글로벌 네트워크를 통해 사용자에게 콘텐츠를 제공하고 있다. 위키미디어 재단에서는 콘텐츠가 요청을 받으면 코어 데이터 센터에서 송신된 그 콘텐츠는 사용자와 가장 가까운 데이터 센터에 기억 또는 캐시된다. 그 때문에 같은 콘텐츠가 여러 번 요청된 경우 빠르고 매끄러운 표시가 가능하다.

한편 콘텐츠가 한동안 요청되지 않은 경우 그 콘텐츠는 코어 데이터 센터에서 지역 데이터 센터를 경유해 사용자에게 전송되게 된다. 인간 사용자는 인기 있는 특정 토픽을 많이 보려는 경향이 있지만 크롤러는 많은 페이지를 일괄 읽기를 하고 인기 없는 페이지에도 접근한다. 그 결과 코어 데이터 센터에서 송신되는 데이터량이 증가하고 리소스 소비 측면에서 비용이 증가한다.

위키미디어 재단에 따르면 코어 데이터 센터로 유입되는 트래픽을 분석한 결과 최소 65%가 크롤러에 의한 것으로 밝혀졌다고 한다. 위키미디어 재단은 크롤러에 의한 트래픽 급증은 사이트 신뢰성 팀에게 끊임없는 혼란을 초래하고 있다며 인간 사용자가 피해를 입기 전에 이런 봇으로부터의 압도적인 트래픽을 차단할 필요가 있다며 자사 콘텐츠는 무료로 이용할 수 있지만 인프라는 결코 무료가 아니라며 즉시 건전한 균형을 재구축하기 위해 행동할 필요가 있다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독