생성 AI의 유행으로 인해 온라인에 콘텐츠를 공개하는 기업이나 조직이 트레이닝 데이터로 사용되지 않도록 대책을 마련하는 사례가 나오고 있다. 대책 중 하나는 사이트 크롤러에 대해 접근을 허용하는 페이지와 허용하지 않는 페이지를 나타내는 robots.txt를 이용한 방법. 실제로 앤트로픽(Anthropic) 크롤러를 막기 위한 내용은 이미 사용되지 않는 크롤러명으로 되어 있어 현재 사용 중인 크롤러는 막지 못하는 상황이라고 한다.
보도에 따르면 통신사 로이터, 패션 잡지 보그와 GQ 등을 운영하는 컨데나스트(Condé Nast) 등이 AI 기업 앤트로픽 크롤러인 ANTHROPIC-AI와 CLAUDE-WEB을 robots.txt로 차단하고 있지만 이들 2가지는 이미 활성화되지 않아 효과가 없다고 한다.
앤트로픽 활성 크롤러는 CLAUDEBOT으로 로이터 등이 사용하는 robots.txt에서는 차단되지 않았다는 것. 유사한 robots.txt나 차단 목록을 사용하는 사이트도 방어 대책이 제대로 작동하지 않고 있는 셈이다.
Hey @AnthropicAI: I get you’re hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?
— Kyle Wiens (@kwiens) July 24, 2024
You’re not only taking our content without paying, you’re tying up our devops resources. Not cool.
스마트폰과 노트북 등 수리 매뉴얼을 공개하고 있는 아이픽스잇 카일 위엔스 CEO는 앤트로픽이 아이픽스잇에 대해 24시간 이내에 100만 회나 접속을 시도했다고 지적했다.
또 요청 중 하나라도 서비스 이용 약관에 대한 접근이었다면 콘텐츠 사용이 명시적으로 금지되어 있다는 걸 알았을 것이라며 앤트로픽 AI인 클로드에게 물어보라면서 만일 콘텐츠의 상업적 사용에 대해 상담이 필요하다면 연락해 달라고 요청했다.
한편 앤트로픽 다리오 아모데이 CEO는 AI 학습 비용이 2025년부터 2027년까지 3년간 최대 1,000억 달러까지 증가할 가능성이 있다고 언급했다. 관련 내용은 이곳에서 확인할 수 있다.