최근 챗GPT처럼 인간과 유사한 수준으로 자연스러운 문장을 생성할 수 있는 AI와 텍스트 입력만으로 고정밀 이미지와 일러스트를 생성할 수 있는 AI가 계속 등장하고 있다. 조사에 따르면 학생 17%가 과제나 시험에 챗GPT를 사용하고 있다고 응답했다. 스탠포드 대학 등 연구팀은 2023년에서 2024년에 걸쳐 학술지에 게재된 컴퓨터 과학 논문에 대한 심사 보고서 5만 건을 분석한 결과 이 중 7~17%가 AI에 의해 작성된 가능성이 있음을 밝혔다.
연구팀은 2023년에서 2024년 사이 회의록에 게재된 컴퓨터 과학 논문에 대한 심사 보고서 5만 건을 조사했다. 그 결과 7~17% 심사 보고서에 AI가 작성한 것으로 추정되는 단어나 문체가 나타난 것.
연구팀에 따르면 AI 도구가 작성한 심사 보고서에는 대형 언어 모델이 생성한 문체에서 흔히 볼 수 있는 격식 있는 어조와 장황함이 포함되어 있다. 또 실제 심사 보고서에서 칭찬할 만한이나 치밀한과 같은 AI가 쉽게 생성할 수 있는 표현이 2022년 이전보다 10배 증가한 것으로 보고됐다.
AI가 생성한 심사 보고서는 표면적이고 일반화된 내용을 담는 경향이 있으며 제출된 논문 특정 섹션에 대한 언급이 없거나 참고문헌이 부족한 경우가 많다고 지적된다.
AI가 작성한 심사 보고서 급증에 대해 연구팀은 마감 직전 제출된 심사 보고서에서 대형 언어 모델이 생성한 텍스트 비율이 높아지는 경향이 있다면서 최근 학술지 심사 담당자는 수많은 심사 요청에 압도되어 시간이 부족해 AI에 의한 심사 보고서 작성은 앞으로도 더 증가할 것이라고 말했다.
연구팀은 또 대형 언어 모델과 같은 AI 시스템은 언어 및 문법 수정, 간단한 질문에 대한 답변, 관련 정보 식별 등 다양한 문제 해결에 유용하다면서도 무책임하게 사용될 경우 대형 언어 모델이 과학적 절차 완전성을 훼손할 위험이 있다고 경고했다. 이어 과학 커뮤니티가 논문 심사 과정에서 AI를 책임감 있게 사용하는 규범을 마련해야 한다고 제언했다.
최근 대형 언어 모델은 상세한 과학적 추론을 할 수 없고 환각이라고 불리는 무의미한 응답을 생성하기도 한다. 연구팀은 현시점 대형 언어 모델이 숙련된 인간 심사자를 대체할 수 없다는 걸 인식하는 게 중요하다고 강조했다. 실제로 대형 언어 모델이 작성한 심사에 대해 연구자는 피드백에 방법론적 비판 등 기술적 깊이가 부족하다거나 논문 오류를 쉽게 간과한다는 비판을 제기했다.
이에 연구팀은 심사 과정에 대형 언어 모델을 사용하는 걸 인정하면서도 대형 언어 모델 출력을 최종 결과가 아닌 출발점으로 보고 생성된 결과를 인간 심사자가 교차 검토해야 한다고 말했다.
또 AI 알고리즘을 논문이나 심사 보고서 작성에 대형 언어 모델이 사용됐는지 감지하는 데 사용하는 것에 대해 효과는 제한적이라고 비판했다. 실제로 불룸버그가 챗GPT 출시 이전에 작성된 논문 500편을 AI 감지기인 GPT제로와 카피리크스(Copyleaks)로 조사한 결과 500편 중 3편이 AI로 생성된 것으로 판단됐고 9편이 부분적으로 AI가 사용된 것으로 오인됐다.
스탠포드 대학 조사에서는 영어가 모국어가 아닌 학생이 쓴 작문 절반 이상을 AI 감지기가 AI 생성 텍스트로 식별한 사례도 보고됐다. AI 감지기가 학생이 쓴 글 1~2%를 AI가 작성한 것으로 오인하는 등 문제도 있어 누명을 쓴 학생이 시험에서 낙제할 위험이 있다.
연구팀은 학술 논문 작성이나 심사 과정에서 대형 언어 모델 흐름을 막을 수는 없다면서 심사자와 저자가 익명으로 소통하고 여러 차례 토론을 진행할 수 있는 오픈리뷰와 같은 플랫폼을 활용해 과정 중 인간 간 소통을 늘릴 필요가 있다고 제언했다. 또 저널과 학회는 심사 과정에서 대형 언어 모델 사용에 대한 명확한 가이드라인을 설정하고 이를 강제하는 시스템을 도입해야 한다고 말했다.
연구팀은 AI가 특정 심사 작업을 책임 있게 지원할 방법에 대해서도 더 많은 연구가 필요하다면서 커뮤니티 규범과 자원을 확립해 과학적 절차에 대한 완전성을 해치지 않고 대형 언어 모델이 심사자와 저자에게 이익을 줄 수 있을 것이라고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.