세계적인 학술지 중 하나인 사이언스(Science)가 1월 4일 자사가 발행하는 모든 학술지에서 연구 결과에 대해 부정하게 가공된 이미지를 사용하고 있는지 검출하는 절차에 AI를 도입해 자동화한다고 발표했다.
이미지 가공 기술 향상과 논문 제출부터 출판까지 모두 디지털 데이터로 일어날 수도 있는 프로세스 이행으로 연구 결과 증거로 나오는 이미지를 변경하는 연구 사기가 쉬워지고 있다는 건 오랜 문제로 지적되어 왔다. 전통적으로 연구 논문이 제출된 뒤 전문가 검토가 이뤄지기 때문에 연구 내용과 결과 진위를 검토하지만 의도적으로 가공된 이미지를 완전히 찾아내는 건 어려울 수 있다. 또 실제로 연구 결과 부정이 발각되면 검토한 전문가 커리어에도 큰 손해를 준다.
연구 논문 부정 검지에는 육안과 기억으로 이미지 재사용과 가공을 실시해 부정 논문을 간파하는 스페셜리스트가 활약하기도 하지만 상당수는 이미지를 확대, 반전, 오버레이할 수 있는 어도비 포토샵을 활용해 논문 스크리닝을 실시해왔다. 한편 부정하게 조작된 이미지를 검출하기 위한 AI 도구 개발도 진행되어 인력보다 압도적으로 빠르고 정확한 도구가 등장하고 있다는 게 지난해 10월 보고되기도 했다.
이를 통해 사이언스는 AI를 활용한 이미지 분석 도구인 프루피그(Proofig)를 도입해 사이언스가 발행하는 학술지 6개 모두에서 부정 이미지 검출을 하겠다고 발표했다. 프루피그는 이미지를 분석해 과거 데이터 중복이나 회전, 스케일 왜곡, 접합 등 가공 흔적을 보여주는 보고서를 생성한다. 연구에 따라선 뭔가 회전시킨 이미지를 정규 이미지로 게재하는 경우도 있기 때문에 AI가 검출한 보고서를 논문 편집자가 인력으로 검토해 AI가 검출한 보고서에 문제가 있는지 판단한다. 사이언스에 따르면 몇 개월간 프루피그를 시험 운용해본 결과 부정 여부가 포함된 문제가 있는 이미지를 출판 전 검출할 명확한 증거를 얻을 수 있었다고 한다.
프루피그는 일정 수준 높은 정확도로 문제를 감지할 수 있으며 논문이 공개되기 전 문제를 발견하는 건 바람직하다. 하지만 모든 걸 보완할 수 있는 건 아니라는 걸 강조하는 게 중요하다는 지적이다. 예를 들어 프루피그는 과거 연구 논문에서 데이터를 도용했을 때 데이터베이스와 비교해 데이터 중복을 감지한다. 하지만 만일 상당히 사소한 분야에 관한 비영리적 논문에서 다루던 데이터의 경우 데이터베이스가 커버할 수 없을 가능성도 높아진다. 또 발표 논문에서 사용된 이미지가 아닌 미발표 연구 결과로부터 개조가 이뤄지면 데이터 중복으로는 검출할 수 없다.
사이언스는 지난해 연말 발표한 사설 중 2024년에는 많은 과제가 있는 해가 될 것이라고 표현했다. 논문 검토에 이미지 검출 AI를 도입해 연구 오류 모니터링을 강화하고 신중하게 큐레이션해나가면서 과학에 대한 더 강한 신뢰와 정직성을 구축하고 싶다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.