챗GPT가 쓴 논문 요지, 연구자도 구분 못한다

오픈AI가 발표한 대화형 AI인 챗GPT(ChatGPT)는 대학생 수준 시험 자유 기술 문제에 합격할 수 있거나 프로그래밍 관련 Q&A 사이트에서 챗GPT를 이용한 응답이 급증했기 때문에 금지되기도 했다. 이렇게 인간으로부터 질문에 대해 자연스럽게 대답할 수 있다는 게 화제가 되고 있는 것. 주로 생물학 검토 전 논문을 제공하는 바이오릭시브(bioRxiv)에서 2022년 12월말 투고된 논문에선 챗GPT가 쓴 가짜 연구 논문 요지는 종종 전문가라도 가짜라고 볼 수 없을 만큼 고품질이었다는 게 지적됐다.

머신러닝 관련 국제회의 중 하나인 ICML(International Conference on Machine Learning)은 AI를 이용해 출력한 문장을 알 수 없다며 가짜 논문 실수에 대해서 학자가 책임을 지게 하겠다고 밝히는 등 챗GPT 같은 AI를 이용해 과학 논문을 집필하는 걸 금지하는 방침을 발표하고 있다.

챗GPT를 이용해 연구 논문을 작성하는 것에 대해선 AI 채팅 고도화로 인해 연구에 대한 정직성과 정확성이 손상될 우려가 퍼지고 있다. 2022년 12월말 바이오릭시브에 게시된 검토 전 논문에선 논문 요지를 챗GPT로 썼을 때 과학자도 이게 진짜 논문인지 AI가 쓴 가짜 논문인지 구분되지 않는 경우가 이다고 지적됐다.

노스웨스턴대학 연구팀은 챗GPT를 이용해 연구 논문 요지를 생성해 과학자가 이를 구별할 수 있는지 검증했다. 학술지(JAMA, The New England Journal of Medicine, The BMJ, The Lancet, Nature Medicine)에 게재된 연구 논문 50개를 선택해 챗GPT에 쓰게 하고 의학 연구자 그룹에 논문 요지를 찾아보도록 의뢰했다.

먼저 챗GPT로 작성한 요지를 표절 추적기에 걸었는데 오리지널리티 스코어 중앙값이 100%가 되어 표절이라고 검출되지 않았다. 같은 요지를 AI 표절 추적기에 걸자 66%는 챗GPT에 의한 것으로 검출할 수 있었다고 한다. 한편 전문 연구자 체크는 챗GPT에서 생성된 요지 중 32%를 진짜로 오인한 것 외에 진짜 논문 중 14%를 AI가 생성한 요지로 오인했다.

연구팀은 논문에서 챗GPT는 신뢰성에 대한 설득력이 있도록 과학적 논문 요지를 쓰고 있다고 평가하며 과학적 문장을 쓰는데 도움이 되는 대규모 언어 모델에 대해 어디까지나 사용이라면 윤리적이고 허용되는지에 대한 경계는 아직 결정되지 않았다고 말한다.

논문에선 연구 논문이나 회의록 등 과학 커뮤니케이션을 평가하는 측은 AI가 생성한 문장 사용을 막기 위한 정책을 도입해야 한다며 허가를 받은 경우에는 AI가 뭘 생성했는지에 대한 공개에 대한 명확한 규칙을 설정해야 한다고 제안하고 있다. 관련 내용은 이곳에서 확인할 수 있다.