가짜 뉴스 만드는 AI 개발했다

AI가 소설을 쓰고 뉴스를 읽는 시대가 됐지만 이번에는 AI가 뉴스까지 직접 쓰는 시대가 올 태세다. 보통 뉴스도 아니고 가짜 뉴스를 쓸 수 있는 AI를 개발한 것.

오픈AI(OpenAI)는 테슬라와 스페이스X로 잘 알려진 엘론 머스크 등이 지원하는 AI 연구 개발 그룹이다. 이런 오픈AI가 자연스러운 문장을 생성할 수 있는 언어 모델인 GPT-2를 발표한 것이다. 이 모델은 AI를 통해 적당한 뉴스 내보내기를 불러오면 독자가 순간적으로 진짜 아니냐고 생각해버릴 것 같은 거짓 뉴스를 생성해낸다.

연구팀이 개발한 알고리즘은 원래 질문에 답하거나 스토리를 요약하고 문장을 번역하는 등 일반적인 언어 처리 AI를 할 수 있도록 개발한 것이다. 하지만 연구팀은 이 알고리즘이 적당한 거짓 문장을 대량 생성하는 걸 보고 악용하면 가짜 뉴스 생성기로 악용할 수도 있다는 사실을 알게 됐다.

아래 영상을 보면 알 수 있듯 GPT-2를 이용해 브렉시트(Brexit) 관련해 기사를 쓰려고 하면 먼저 맨 처음 문장은 사람이 입력을 한다. 사람이 만든 첫 문장은 브렉시트가 이미 EU 탈퇴를 묻는 국민 투표 이후 적어도 영국 경제에 800억 파운드에 달하는 부담을 주고 있다는 내용이다.

이후 GPT-2가 자동으로 텍스트를 생성한다. GPT-2가 생성한 문장은 많은 업계 전문가들이 브렉시트로 인한 경제적 손실이 더 커져갈 것으로 믿고 있다는 것. 이렇게 간단하게 첫 문장을 시작하면서 위화감 없이 문장을 이어간다.

또 소설의 첫 문장을 입력하자 원작과는 전혀 다른 문장을 자동 생성한다. 어떻게 보면 GPT-2는 소설에 대한 가짜 문장을 만들어낸 셈이다. GPT-2는 몇 단어만 입력하면 이후에 나올 문장을 예측해 자동 생성할 수 있는 AI 모델이다. 품질이 높아 잠재적으로 다양한 용도로 응용할 수 있다는 게 장점이지만 위험성도 함께 수반하고 있다고 할 수 있다.

GPT-2는 그럴싸한 문장을 자동 생성할 수 있고 단락 중간에 지금까지 써온 걸 잊지 않는 건 물론 긴 문장으로 구문이 거칠어지는 것 같은 기존 AI 텍스트 생성기에서 나타났던 단점을 보이지 않는다.

GPT-2는 2가지 점에서 획기적이라는 평가를 받는다. 하나는 GPT-2의 AI 모델이 기존 모델보다 12배 이상 큰 데이터셋에 대응한다는 점이다. GPT-2의 AI 모델은 레딧에서 3표 이상 받은 링크를 찾아 해당 1,000만 건 문서를 모은 데이터셋으로 학습을 한 것이어서 데이터셋 용량은 텍스트만 해도 40GB에 이른다. 백경 같은 소설 3만 5,000권에 해당하는 데이터 크기를 학습한 것이다.

GPT-2는 기존 텍스트 생성기보다 압도적으로 범용성이 뛰어나고 입력한 텍스트를 구조화해 번역하거나 요약하는 것 같은 작업을 수행하고 간단한 독해 시험에 합격할 만한 수준으로 문장을 만들어낼 수 있다. GPT-2는 번역이나 요약 같은 작업에 특화된 형태로 구축한 다른 AI 모델과 비슷하거나 그 이상 성능을 발휘하며 이는 기존 텍스트 생선기 AI 모델에는 없던 장점이라고 할 수 있다.

트위터에 게재된 문장은 사람의 손으로 수정을 하지 않은 것으로 만들어내는 데에는 15초 밖에 걸리지 않았다고 한다.

In print, we used OpenAI’s tool to write its own news story about itself. This is what came out of the very first pass, unedited. pic.twitter.com/detjpnAZLv

— alex hern (@alexhern) February 15, 2019

이에 따라 오픈AI는 GPT-2 전체 기능 버전의 오픈소스화 대신 논문과 간이 버전만 공개하기로 결정했다고 한다. 다행스럽게도 이 기술은 아직까지 미완성인 부분이 많다. 예를 들어 표제 내보내기 부분에 이어지는 문장에 분명하게 온라인에서 가져온 글을 연결 가능한 만큼 기사를 내보내기도 한다. 하지만 그럼에도 알고리즘은 현실적인 텍스트를 작성하는 데 상당히 뛰어나다고 한다.

다만 오픈AI 측은 철저하게 사실 확인을 하지 않으면 모를 듯한 가짜 뉴스를 내보낼 수 있도록 하려면 앞으로 1∼2년은 더 필요하다고 한다. 이렇게 된다면 알고리즘이 일부러 가짜 뉴스를 SNS로 내보내거나 피싱, 스팸 등에 악용될 수도 있다는 사실을 인정했다.

최근 SNS에서 거짓 정보에 대한 검색이나 제거에 성과를 조금씩 올리고 있지만 앞으로 몇 년 안에 AI를 이용해 만들어지는 가짜 뉴스와 SNS 업계 사이에서 새로운 경쟁(?)이 이뤄질 가능성도 있다. 관련 내용은 이곳에서 확인할 수 있다.