테크레시피

스티븐 킹 “AI 학습에 작품 금지는 러다이트 운동 같은…”

대규모 언어 모델 LLaMA 학습에 메타가 사용한 것으로 알려진 책 데이터세트인 북스3(Books3)은 AI 모델 학습용으로 19만 6,640권 37GB 데이터를 포함하고 있으며 저작권 침해 대책 그룹으로부터 삭제 요청 등이 나오고 있다. 학습 데이터에는 여러 유명 작품도 포함되어 있었지만 자신의 작품이 AI 학습에 사용되고 있다는 걸 알게 된 인기 작가 스티븐 킹(Stephen King)이 AI에 의한 작품 사용을 금지하지 않을 것이라며 AI 위협을 두려워하지 않는 자세를 보이고 있다.

북스3 데이터를 분석해보면 북스3 학습 데이터에는 위키피디아 등 온라인에 있는 문장에서 인용한 것 외에 19만 권 이상 서적 정보를 확인할 수 있었다고 한다. 이 가운데 2만 권은 책 데이터베이스에서 확인할 수 없었지만 17만 권은 타이틀이나 저자도 특정할 수 있다. 식별된 타이틀 대부분은 지난 20년 이내에 출판된 것으로 3분의 1은 소설이다.

분석 결과에 대해 메타 측은 북스3 사용에 대한 의견을 자제하고 있다. 한편 블룸버그통신은 북스3 데이터세트 사용을 인정하면서 자사는 불룸버그GPT(BloombergGPT) 이후 버전을 학습하는데 사용되는 데이터 소스에 북스3 데이터세트를 포함하지 않을 것이라고 밝혔다.

여기에는 인기 소설가 스티븐 킹의 다수 작품도 포함되어 있었다. 그는 많은 책을 읽는 독서가 아니라면 쓰는 법을 배울 수 없다고 말한다. 이를 근거로 그는 실제로 AI는 이를 실천하고 대량 책을 읽은 다음 품질 높은 문장을 출력하고 시도하고 있지만 결론적으로 잘 작동하지 않으며 작동하지 않을 것이라고 밝혔다.

그는 창의성에는 감성이 필요하고 AI가 감성을 실현한다고 주장하는 사람도 있을지 모르지만 여전히 회의적 자세를 보이고 있다. AI 실력에 대해 회의적인 것 외에도 기술 발전이 방해받지 않는다는 이유로 그는 AI 학습에 자신의 작품을 사용하는 것에 반발하지 않았다. 그는 우리는 다양한 기술로 둘러싸여 살고 있으며 이들 없이는 살 수 없다면서 잠재적인 지각력에는 경계심을 가져야 하지만 자신의 작품을 금지하는 건 증기기관을 깨고 산업 진보를 멈추려고 하는 러다이트 운동과 같은 무의미한 방해 행위라고 밝혔다. 그는 AI를 비난하는 게 아니라 AI가 어디로 향하는지를 긍정적으로 보고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독