테크레시피

영어 모국어 아닌 사람이 쓴 걸 AI 문장으로 판별?

챗GPT나 바드 같은 문장 작성 능력을 지닌 채팅 AI가 등장하면서 AI가 작성한 문장을 판별하기 위한 도구가 요구되고 있다. 하지만 이런 종류 도구는 영어를 모국어로 하지 않는 사람이 쓴 문장을 AI에 의해 만들어진 것이라고 판별해버리는 게 최신 연구에 의해 밝혀졌다.

챗GPT 같은 정밀 문장 생성 AI가 등장하며 AI를 이용한 최신 부정행위를 방지하기 위해 AI 생성 문장을 검출하기 위한 도구가 요구되게 됐다. 실제로 텍스트 생성 AI로 유명한 챗GPT를 개발하는 오픈AI는 AI로 작성된 문장을 살펴볼 수 있는 도구(AI Text Classifier)를 출시하고 있다.

이런 AI 생성 문장 검출 도구는 검출 정밀도 99% 등으로 검출 정밀도를 어필하는 경우가 있다. 하지만 실제로는 상당히 많은 오탐지를 수행하는 것으로 밝혀졌다. 스탠포드대학 연구팀은 영어를 모국어로 하지 않는 사람에 대해 영어 능력을 판정하는 테스트로 알려진 토플용 에세이를 써달라고 의뢰했다. 이어 작성된 에세이 91편을 7개 AI 텍스트 검출 도구에 넣어 AI가 생성한 문장인지 판별하는 테스트를 실시했다.

그 결과 에세이 절반 이상이 AI에 의해 생성된 것으로 판별되어 버렸다고 한다. 사용된 도구 중에는 98% 정밀도로 에세이를 AI가 작성한 것이라고 판별해버리는 것도 존재했다고 한다. 한편 영어를 모국어로 하는 미국 중학 2학년이 쓴 작문에 같은 도구를 걸자 90% 이상 확률로 인간이 작성한 문장이라고 판별했다.

이런 AI 텍스트 감지 도구는 문장 다음 단어를 예측하려고 할 때 생성 언어 모델이 얼마나 놀랐는지 혼란스러웠는지 나타내는 척도를 조사한다. 모델이 다음 단어를 쉽게 예측할 수 있다면 텍스트 복잡성이 낮은 순위로 매겨지지만 다음 단어 예측이 어려운 것으로 판단되면 텍스트 복잡성이 높게 평가된다.

챗GPT 같은 LLM은 이런 텍스트 난이도가 낮은 문장을 양산하도록 학습되고 있다. 다시 말해 인간이 문장을 작성하는 경우라도 텍스트 곤혹도가 낮아지는 단어를 선택하면 문장이 AI에 의해 작성된 걸로 판별해버리는 것이다. 따라서 연구팀은 영어를 모국어로 하지 않는 사람은 더 단순한 단어를 선택하는 경향이 있기 때문에 도구가 AI가 작성한 문장으로 판별할 위험이 높아진다고 지적하고 있다.

AI 텍스트 검출 도구에 숨어 있는 바이어스를 특정한 뒤 연구팀은 피험자가 작성한 에세이를 챗GPT에 더 세련된 단어를 사용해 재작성하라고 의뢰했다. 이후 챗GPT에 재작성시킨 에세이를 다시 AI 텍스트 검출 도구에 걸자 모두 인간이 쓴 에세이로 판별했다고 한다.

연구팀은 챗GPT에 의한 문장을 검출하는 도구가 영어를 모국어로 하지 않는 사람에게 주는 영향은 심각하기 때문에 이런 도구 사용법에 대해선 잘 생각할 필요가 있다고 지적했다. 더구나 구글 등 검색엔진이 영어를 모국어로 하지 않는 사람이 쓴 문장을 AI가 작성한 문장으로 판단해 해당 콘텐츠 순위를 낮출 가능성 등에 대해서도 언급했다.

또 AI 텍스트 감지 더구에 가장 중요한 시장인 교육 분야에선 비네이티브 학생이 부정 행위를 범할 위험이 높아져 학생 학업과 정신 건강에 악영향을 미칠 수 있다고 지적하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독