실험 결과 조작이나 이미지 편집 등 과학 논문에서의 부정행위는 오래전부터 과학계를 괴롭혀온 문제다. 최근 생성 AI 도구 발전으로 설득력 있는 가짜 이미지를 쉽게 만들어낼 수 있게 되면서 논문 부정행위를 판별하기가 더 어려워지고 있다.
독일 학술 출판사에서 이미지 데이터 무결성을 조사하는 야나 크리스토퍼는 생성 AI가 빠르게 진화하고 있으며 이미지 무결성 및 출판 윤리 분야 전문가가 생성 AI로 인한 문제를 점점 더 걱정하고 있다고 말했다. 생성 AI 도구를 사용해 논문 텍스트, 이미지, 실험 데이터를 조작하는 사례가 증가하면서 과학계 전체에 대한 신뢰성이 손상될 우려가 커지고 있다. 이에 따라 무결성 전문가, 학술 출판사, 기술 기업들 간에는 AI 생성 요소를 탐지하는 도구 개발이 활발히 진행되고 있다.
논문 작성에 AI를 활용하는 건 연구자에게도 이점이 있어 이미 많은 학술지가 특정 조건에서 AI 생성 텍스트 사용을 허용하고 있다. 하지만 이미지나 실험 데이터와 같은 과학 연구 핵심 부분에서 생성 AI 사용이 인정될 가능성은 거의 없다. 연구 무결성 전문가인 엘리자베스 빅은 AI로 생성된 텍스트는 인정될 수 있겠지만 데이터 생성은 전혀 다른 문제라고 언급했다.
이들은 이미 생성 AI로 조작된 이미지와 실험 데이터를 포함한 논문이 세상에 유포되고 있을 가능성을 의심하고 있다. 또 가짜 과학 논문을 대량으로 작성해 판매하는 페이퍼밀 그러니까 논문 공장이 생성 AI 도구를 사용해 논문을 대량 생산하고 있다는 의혹도 제기되고 있다. 실제로 연구자 이름을 무단으로 사용한 AI 생성 논문이 온라인 저널에 실린 사례도 보고됐다.
AI 생성 이미지를 탐지하는 건 AI에 의한 논문 부정행위를 밝혀내는 데 중요한 과제다. 과학 논문에서 육안으로 진짜 이미지와 AI 생성 이미지를 구별하기는 상당히 어렵기 때문. 크리스토퍼는 매일 AI가 생성한 이미지와 마주하고 있다고 느낄 정도지만 이를 증명할 수 없으면 할 수 있는 일이 거의 없다고 말했다.
과거에는 논문에 사용된 이미지 조작이 주로 어도비 포토샵 같은 도구로 이뤄졌다. 인위적으로 편집된 이미지는 다른 이미지와 배경이 완전히 동일하거나 이상할 만큼 오염이나 얼룩이 없는 등 사람이 육안으로 감지할 수 있는 징후가 많았다. 하지만 전문가조차 AI로 생성된 이미지를 정확히 판별하기 어려워하고 있다. 이 이미지가 진짜 같지 않다고 생각하는 논문을 많이 봤지만 그것만으로는 편집자에게 문제를 제기하기에 충분하지 않다고 말한다.
명확한 증거는 없지만 챗GPT 등으로 작성된 논문이 증가하고 사람이 편집한 이미지가 급격히 줄어든 상황을 보면 생성 AI 도구가 이미지 조작에 사용되고 있다는 추측이 합리적이다.
과학 이미지 무결성 연구자 케빈 패트릭은 포토샵 생성 AI 도구(Generative Fill)을 사용해 종양이나 배양 세포와 같은 사실적인 이미지를 1분 이내에 생성할 수 있었다고 보고했다. AI 생성 이미지와 실제 이미지를 구분하기 어려운 예다.
그는 이런 생성 AI 도구로 데이터를 위조해 이익을 취하는 사람이 있다면 분명 이를 활용할 것이라며 이런 도구로 생성할 수 있는 데이터는 아마도 더 많이 있을 것이라고 밝혔다.
AI 생성 이미지를 인간 눈으로 판별하기 어렵기 때문에 AI로 AI 생성 이미지를 탐지하는 기술도 개발 중이다. 예를 들어 이미지트윈(Imagetwin)이나 프루피그(Proofig) 같은 AI 생성 이미지 판별 도구가 이미 개발됐고 여러 출판사와 연구 기관이 논문 부정행위를 탐지하는 데 이를 사용하고 있다.
또 최근에는 AI가 생성한 이미지나 텍스트에 워터마크를 삽입해 구분 가능하게 하는 시도가 진행 중이며 과학 논문 무결성 분야에서는 현미경 등으로 촬영한 원본 데이터에 워터마크를 넣어 식별하는 방식도 제안되고 있다.
패트릭은 기술이 발전하면서 결국 오늘날의 부정행위를 탐지할 수 있게 될 것이라 확신한다며 현재 과학 연구 과정에서는 일시적으로 속일 수 있을지 몰라도 영원히 속일 수는 없을 것이라고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.