챗GPT 시험 부정행위? “94%는 탐지 불가능하다”

영국 레딩 대학이 AI 금지 시험에 챗GPT 답변을 섞어 넣는 실험을 실시한 결과 챗GPT 답변 중 94%가 부정행위로 발각되지 않고 높은 점수를 획득하는 것으로 나타났다.

챗GPT 같은 텍스트 생성 AI 발달에 따라 AI로 생성된 텍스트를 탐지하는 도구도 많이 등장하고 있다. 하지만 AI 탐지 도구는 정확도가 낮다는 지적이 있으며 챗GPT 개발사인 오픈AI도 자사 AI 탐지 도구를 정확도가 낮다는 이유로 공개 중단했다. 이에 레딩대 연구팀은 도구가 아닌 인간 힘으로 AI에 의한 답변을 탐지할 수 있는지 확인하기 위해 대학 시험에 채점자에게 알리지 않고 챗GPT 답변을 섞어 넣어 부정행위로 탐지되는지 확인하는 실험을 실시했다.

연구팀은 윤리위원회와 학부장 허가를 받은 뒤 심리학 학사 과정 5개 온라인 시험을 대상으로 실험을 실시했다. 챗GPT에는 프롬프트로 문헌을 참조하면서 참고문헌 목록은 포함하지 않고 다음 질문에 160단어로 답해달라 또는 문헌을 참조하면서 참고문헌 목록은 포함하지 않고 다음 질문에 답하는 2,000단어 에세이를 작성해달라고 입력하고 인간 조작은 단어 수가 부족한 경우 계속 작성하게 하기, 출력 내용을 마이크로소프트 워드 문서 파일로 가공하기, 참고문헌 목록이 출력되면 삭제하기 등으로 제한해 인간 수정을 포함하지 않은 AI에 의한 답변을 작성했다. 단어 수에 대해서는 시험 문제 지시를 그대로 입력하면 너무 짧은 답변이 출력되므로 지시에 상관없이 고정된 값이 사용됐다.

연구팀은 대학 시스템 부서에 요청하여 가짜 학생 계정을 만들고 챗GPT로 작성한 답변을 제출했다. 실험은 2023년 여름 실시됐으며 채점은 주로 대학 기술 스태프나 박사 과정 학생에 의해 이뤄졌다.

그 결과 챗GPT로 작성한 답변 중 94%는 부정행위로 탐지되지 않고 그대로 시험을 통과했다. 부정 행위 중에서도 AI에 의해 생성된 답변으로 탐지된 건 단 3%에 불과했다.

그 뿐 아니다. 인간에 의한 답변과 챗GPT로 작성한 답변 평균 점수를 비교해 보면 챗GPT 평균 점수는 5개 중 4개 테스트에서 인간 답변 평균 점수를 상회한다. 챗GPT로 작성한 답변 점수 중앙값보다 높은 점수를 획득한 학생 비율 역시 대부분 테스트에서 챗GPT가 인간보다 높은 점수를 획득했다.

연구팀은 이번 실험 결과를 바탕으로 AI 답변은 인간보다 일관되게 높은 성적을 기록했으며 AI에 의한 답변 탐지는 사실상 불가능하다고 결론 내렸다. 또 연구팀은 AI를 이용한 부정행위에 대한 간단한 대책은 온라인이 아닌 대면 시험으로 돌아가는 것이라고 지적하면서 AI를 대처 가능한 과제로 생각하는 게 아니라 AI 사용을 받아들이는 교육 방법 검토가 필요하다고도 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.