테크레시피

가짜 뉴스 만드는 AI 개발했다

AI가 소설을 쓰고 뉴스를 읽는 시대가 됐지만 이번에는 AI가 뉴스까지 직접 쓰는 시대가 올 태세다. 보통 뉴스도 아니고 가짜 뉴스를 쓸 수 있는 AI를 개발한 것.

오픈AI(OpenAI)는 테슬라와 스페이스X로 잘 알려진 엘론 머스크 등이 지원하는 AI 연구 개발 그룹이다. 이런 오픈AI가 자연스러운 문장을 생성할 수 있는 언어 모델인 GPT-2를 발표한 것이다. 이 모델은 AI를 통해 적당한 뉴스 내보내기를 불러오면 독자가 순간적으로 진짜 아니냐고 생각해버릴 것 같은 거짓 뉴스를 생성해낸다.

연구팀이 개발한 알고리즘은 원래 질문에 답하거나 스토리를 요약하고 문장을 번역하는 등 일반적인 언어 처리 AI를 할 수 있도록 개발한 것이다. 하지만 연구팀은 이 알고리즘이 적당한 거짓 문장을 대량 생성하는 걸 보고 악용하면 가짜 뉴스 생성기로 악용할 수도 있다는 사실을 알게 됐다.

아래 영상을 보면 알 수 있듯 GPT-2를 이용해 브렉시트(Brexit) 관련해 기사를 쓰려고 하면 먼저 맨 처음 문장은 사람이 입력을 한다. 사람이 만든 첫 문장은 브렉시트가 이미 EU 탈퇴를 묻는 국민 투표 이후 적어도 영국 경제에 800억 파운드에 달하는 부담을 주고 있다는 내용이다.

이후 GPT-2가 자동으로 텍스트를 생성한다. GPT-2가 생성한 문장은 많은 업계 전문가들이 브렉시트로 인한 경제적 손실이 더 커져갈 것으로 믿고 있다는 것. 이렇게 간단하게 첫 문장을 시작하면서 위화감 없이 문장을 이어간다.

또 소설의 첫 문장을 입력하자 원작과는 전혀 다른 문장을 자동 생성한다. 어떻게 보면 GPT-2는 소설에 대한 가짜 문장을 만들어낸 셈이다. GPT-2는 몇 단어만 입력하면 이후에 나올 문장을 예측해 자동 생성할 수 있는 AI 모델이다. 품질이 높아 잠재적으로 다양한 용도로 응용할 수 있다는 게 장점이지만 위험성도 함께 수반하고 있다고 할 수 있다.

GPT-2는 그럴싸한 문장을 자동 생성할 수 있고 단락 중간에 지금까지 써온 걸 잊지 않는 건 물론 긴 문장으로 구문이 거칠어지는 것 같은 기존 AI 텍스트 생성기에서 나타났던 단점을 보이지 않는다.

GPT-2는 2가지 점에서 획기적이라는 평가를 받는다. 하나는 GPT-2의 AI 모델이 기존 모델보다 12배 이상 큰 데이터셋에 대응한다는 점이다. GPT-2의 AI 모델은 레딧에서 3표 이상 받은 링크를 찾아 해당 1,000만 건 문서를 모은 데이터셋으로 학습을 한 것이어서 데이터셋 용량은 텍스트만 해도 40GB에 이른다. 백경 같은 소설 3만 5,000권에 해당하는 데이터 크기를 학습한 것이다.

GPT-2는 기존 텍스트 생성기보다 압도적으로 범용성이 뛰어나고 입력한 텍스트를 구조화해 번역하거나 요약하는 것 같은 작업을 수행하고 간단한 독해 시험에 합격할 만한 수준으로 문장을 만들어낼 수 있다. GPT-2는 번역이나 요약 같은 작업에 특화된 형태로 구축한 다른 AI 모델과 비슷하거나 그 이상 성능을 발휘하며 이는 기존 텍스트 생선기 AI 모델에는 없던 장점이라고 할 수 있다.

트위터에 게재된 문장은 사람의 손으로 수정을 하지 않은 것으로 만들어내는 데에는 15초 밖에 걸리지 않았다고 한다.

 

이에 따라 오픈AI는 GPT-2 전체 기능 버전의 오픈소스화 대신 논문과 간이 버전만 공개하기로 결정했다고 한다. 다행스럽게도 이 기술은 아직까지 미완성인 부분이 많다. 예를 들어 표제 내보내기 부분에 이어지는 문장에 분명하게 온라인에서 가져온 글을 연결 가능한 만큼 기사를 내보내기도 한다. 하지만 그럼에도 알고리즘은 현실적인 텍스트를 작성하는 데 상당히 뛰어나다고 한다.

다만 오픈AI 측은 철저하게 사실 확인을 하지 않으면 모를 듯한 가짜 뉴스를 내보낼 수 있도록 하려면 앞으로 1∼2년은 더 필요하다고 한다. 이렇게 된다면 알고리즘이 일부러 가짜 뉴스를 SNS로 내보내거나 피싱, 스팸 등에 악용될 수도 있다는 사실을 인정했다.

최근 SNS에서 거짓 정보에 대한 검색이나 제거에 성과를 조금씩 올리고 있지만 앞으로 몇 년 안에 AI를 이용해 만들어지는 가짜 뉴스와 SNS 업계 사이에서 새로운 경쟁(?)이 이뤄질 가능성도 있다. 관련 내용은 이곳에서 확인할 수 있다.

lswcap

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독