테크레시피

과학 논문 99% 정확도로 …챗GPT로 만든 도구

최근에는 문장이나 이미지를 생성하는 AI 발전이 현저해졌고 스탠포드대학이 실시한 조사에선 학생 17%가 과제 또는 시험에 챗GPT를 사용하고 있다고 답했다. 캔자스대학 연구팀은 챗GPT를 이용해 작성된 논문을 감지하는 도구를 개발했으며 연구팀에 따르면 검출 정확도는 99% 이상이라고 한다.

기존 인간이 쓴 문장인지 AI가 생성한 문장인지 구별하는 도구 대부분은 전문적인 과학 논문을 위해 특별히 제작된 게 아니었다. 이 때문에 연구팀은 과학 논문용으로 정확하게 인간과 AI를 구분할 수 있는 도구 개발을 실시했다.

연구팀은 생물학이나 물리학 등 다양한 분야에서 64개 논문을 선택했으며 챗GPT에 대해 동일 내용을 설명하기 위한 문장을 128개 생성하게 했다. 모두 1,276개 단락이 챗GPT에 의해 생성되어 알고리즘 학습에 사용됐다.

연구팀에 따르면 인간이 쓴 논문인지 챗GPT가 생성한 논문인지를 판단하는데 있어 기준이 되는 건 인간과 챗GPT 문장 사이에 있는 문체 차이라고 한다. 논문을 발표하는 과학자는 챗GPT보다 전문 단어나 문구를 알고 있는 경우가 많고 다양한 단어를 포함한 긴 단락을 쓸 가능성이 있다고 한다. 또 인간이 쓴 논문에는 챗GPT에 의해 생성된 문장에는 별로 포함되지 않는 물음표나 괄호, 세미콜론 등이 많이 포함되는 게 지적되고 있다.

또 단락당 문자수나 단어수가 일정하게 되기 쉬운 챗GPT에 대해 인간이 쓰는 논문은 단락당 문자수나 단어수, 문장 길이가 일정하지 않다. 또 인간이 쓴 논문에선 그러나, 단, 이유는 등 특정 단어가 논문 내에 많이 등장하는 한편 챗GPT가 생성한 논문에선 기타, 연구자는 같은 문구가 많이 사용됐다.

이후 인간에 의해 쓰인 30개 논문과 논문 요지를 바탕으로 챗GPT가 생성한 60개 문장을 이용해 알고리즘 테스트가 이뤄졌다. 실험 결과 연구팀이 개발한 도구는 인간이 쓴 논문과 AI가 생성한 논문을 거의 100% 정확도로 식별할 수 있었다고 보고됐다. 또 논문 개별 단락마다 도구를 사용하면 탐지 정확도가 조금 떨어졌으며 92% 정확도로 성공적으로 식별됐다. 연구팀에 따르면 이번 도구는 시장에서 입수 가능한 AI 텍스트 검출 도구 정밀도를 크게 웃돌고 있다고 한다.

연구팀은 향후 목표로 더 광범위한 종류 학술 논문에서 도구 사용을 검토하고 있으며 AI가 진보해 더 인간에 가까운 문장을 생성하게 됐을 때 자신의 도구가 도움이 되는지 여부를 조사하는 것이다. 한편 보도에선 AI에서 생성된 텍스트를 검출하도록 설계된 많은 소프트웨어는 신뢰도가 낮아 문제가 되고 있다며 챗GPT에서 생성된 그럼에도 불구하고 인간 손으로 가볍게 편집된 논문에 대해 이번 도구가 얼마나 정확한 검출을 할 수 있는지는 밝혀지지 않았다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독