테크레시피

AI 도구 “논문 내 부정 조작 이미지, 인간 웃도는 정밀도로…”

과학 논문에서 이미지나 데이터를 부정하게 조작해 결과를 변조하는 행위는 과학 전반에 대한 신뢰를 뒤흔드는 심각한 문제이며 논문에서의 부정을 검출하는 대처는 중요하다. 이런 과학 논문 내 부정 조작 이미지를 검출하기 위한 AI 도구는 이미 인간 육안에 의한 체크보다 높은 정밀도를 갖고 있다는 연구 결과가 보고됐다.

최근에는 과학 논문 부정이 큰 문제가 되어 2022년 11월에는 스탠포드대학 당시 학장이 주 집필자를 맡은 여러 논문에서 데이터 조작 등 부정이 있었을 가능성이 있다고 보도됐다. 집필자 개인이 직접 부정 행위에 관여하거나 공동 연구자 부정 행위를 인식했다는 증거는 없지만 그는 인책 사임 형태로 8월 학장에서 물러났다.

이처럼 부정이 이뤄진 과학 논문이 사독을 통과해버리는 경우는 결코 드물지 않다. 미국 미생물학자인 엘리자베스 빅은 2016년 연구에서 2만 621건 논문을 검토한 결과 782건에서 부적절한 이미지 중복이 있었다고 보고했다. 782건 중 3분의 1은 단순한 이미지 실수 가능성이 있지만 나머지는 분명히 가공이 이뤄진 것이었다고 한다.

이런 과학 논문 내 부정은 과학 연구 전반에 대한 신뢰를 뒤흔들기 때문에 논문 부정행위를 간파하는 시도가 중요해지고 있다. 따라서 과학 논문 부정 이미지 조작에 대해 조사하는 생물학자인 숄트 데이비드는 논문 이미지 조작을 검출하는 AI 도구인 이미지트윈(Imagetwin) 정밀도를 확인하는 테스트를 실시했다.

먼저 그는 학술지(Toxicology Reports)에 2014∼2023년에 걸쳐 게재된 관련 이미지를 포함한 논문 715건에 대해 조사해 이미지 조작이 이뤄졌을 가능성이 있는 논문을 확인했다. 이후 이미지트윈을 이용해 같은 논문군을 분석해 자신의 조사 결과와 어떤 차이가 있는지 조사했다고 한다.

그 결과 이미지트윈은 인간보다 2∼3배 속도로 조사를 실시했을 뿐 아니라 인간이 플래그를 세운 논문 63건 대부분과 간과한 논문 41건을 발견했다는 게 확인됐다. 그의 논문은 아직 검토를 받지 않았지만 학술지 출판사 측은 이 사전 검토 논문을 인식하고 있으며 사내 조사를 시작했다고 밝히고 있다.

이미지트윈은 오스트리아 비엔나에 위치한 기업인 이미지트윈AI(ImageTwin AI)이 개발한 AI 도구이며 200개에 이르는 대학과 출판사, 과학 단체가 사용하고 있다. 개발사에 따르면 이미지트윈은 논문에 포함되어 있는 모든 이미지에 대해 이미지 지문이라고도 할 수 있는 걸 생성해 이 지문이 중복되는 이미지를 논문 전체로 찾는 것으로 부정 조작을 검출한다고 한다. 또 다른 논문에 게재된 2,500만 장 이미지로 이뤄진 데이터베이스와 대조, 과거 논문에서 도용된 이미지가 없는지도 체크한다. 이런 절차 실행에 걸리는 시간은 불과 5∼10초로 인간보다 빠르고 방대한 데이터를 스캔할 수 있다.

이런 점에서 전문가는 인간과 AI 도구를 결합한 이미지 조작 검사를 논문 검토 절차에 통합해야 한다고 주장하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독