테크레시피

과학적 가설 뒷받침하려고…챗GPT 데이터세트 날조 지적

챗GPT 기반이 되는 자연 언어 처리 AI 모델인 GPT-4는 과학적 가설을 뒷받침하기 위해 데이터세트를 날조하는 경우가 있다는 논문이 발표됐다.

지난 11월 9일 학술지(JAMA Opharmology)에 게재된 논문에서 대규모 언어 모델 GPT-4와 외부 데이터를 읽거나 프로그래밍 언어 파이썬 코드를 출력하는 ADA(Advanced Data Analysis)를 조합해 검증되지 않은 과학적 가설을 뒷받침하기 위한 임상 시험 데이터세트를 작성하는 실험이 이뤄졌다.

연구팀은 GPT-4와 ADA를 이용해 원추각막이라고 불리는 눈 질병자에 대한 데이터세트를 생성하도록 요청했다. 원추각막은 각막 박화를 일으키고 초점 장애나 시력 저하를 일으킬 수 있는 증상으로 환자 15∼20%가 치료를 위해 각막 이식을 받는다.

각막 이식에는 2가지 방법이 있다. 하나는 PKP라고 불리는 것으로 각막 손상층을 모두 수술적으로 제거하고 기증자로부터 건강한 조직을 이식하는 것이다. 또 하나는 DALK라고 불리는 것으로 각막 전층만을 건강한 조직으로 치환해 최내층은 손을 붙이지 않은 채 남겨 두는 수법이다.

연구팀은 DALK가 PKP보다 뛰어난 결과를 가져온다는 결론을 뒷받침하는 데이터를 만들기 위해 각막 형상을 평가해 요철을 검출하는 영상 검사 통계 데이터와 실험 참가자에서 수술 전후 시력을 회복할 수 있었던 정도에 관한 데이터를 출력하도록 GPT-4에 의뢰했다.

GPT-4가 출력한 데이터에서 각막 이식을 받은 피실험자 300명은 DALK를 받은 피험자가 PKP를 받은 환자보다 시력, 영상 검사에서 뛰어난 점수를 보였다고 한다. 하지만 실제 데이터가 나타내는 결과와는 모순되며 실제로 2010년 실시된 피험자 77명이 대상이 된 조사에선 DALK 결과는 PKP 수술 2년 뒤 결과와 다르지 않은 것으로 나타났다.

이 결과에 대해 영국 맨체스터대학 연구자는 생성형 AI는 적어도 표면적으론 그럴듯한 데이터세트를 쉽게 작성할 수 있는 것 같다며 따라서 아마추어 눈에는 생성형 AI가 출력하는 데이터세트는 진짜처럼 보인다고 지적했다.

그는 GPT-4 이전 버전을 이용하면서 생성형 AI가 작성한 데이터세트를 검증하고 있지만 어떤 버전 생성형 AI가 만든 데이터세트도 내용을 조사하면 설득력이 부족하다.

연구팀은 학술지 네이처 요청을 받아 생성형 AI가 출력하는 데이터세트 신뢰성을 검증하기 위한 스크리닝 프로토콜을 이용해 데이터세트를 평가했다. 많은 경우 생성형 AI가 출력한 데이터세트에선 피험자 성별과 이름에서 예상되는 성별이 부정확하다는 게 밝혀졌다. 또 각막 이식 수술 전후 시력 측정치와 눈 화상 검사 결과 사이에 상관관계를 찾을 수 없는 것도 밝혀졌다고 한다.

연구팀은 연구 목적은 AI가 원래 데이터에 뒷받침되지 않은 데이터세트를 불과 몇 분 만에 만들 수 있으며 이용 가능한 증거라고는 정반대 결론을 도출해버리는 걸 강조하는 것이라고 언급했다. AI가 설득력 있는 데이터를 날조해 버리는 것으로 연구자나 학술지 편집자 사이에서 연구 안전성에 대한 우려가 높아지고 있다. 연구자는 생성형 AI를 사용해 표절 소프트웨어로는 검출할 수 없는 텍스트를 생성하는 건 문제였지만 한층 더 가짜 데이터세트를 작성할 수 있는 건 다른 수준 문제가 가능해져 버리는 것이라고 밝혔다.

전문가는 현실 속 논문 검토는 완전한 데이터 재분석까지는 이르지 못하는 경우가 많기 때문에 생성형 AI를 이용해 성공적으로 담긴 무결성 침해를 발견할 가능성은 적다며 학술지에선 AI가 생성한 데이터를 조사하기 위한 프로세스를 수정할 필요가 있다고 주장했다.

연구팀은 잠재적으로 문제가 있는 연구를 평가하기 위한 통계 도구와 비통계 도구를 설계하기 위한 공동 프로젝트를 주도하고 있다. AI가 문제 일부일 수 있는 것처럼 문제 일부에는 AI 기반 솔루션이 있을 수 있다면서 생성형 AI 발전으로 문제를 해결하기 위한 도구가 곧바로 등장할 가능성도 있다고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사