GPT-4, 안과 의료 시험서 전문의 수준 점수 받았다

2018년 인간 의사와 동등한 정확도로 눈 질환을 진단할 수 있는 AI가 등장했고 당뇨병과 관련된 안과 질환의 경우에는 전문의보다 정확한 진단이 가능해지는 등 AI는 안과 분야에서 괄목할만한 진전을 이뤘다. 오픈AI 언어 모델을 사용한 새로운 연구에 따르면 AI는 눈 상태를 평가하는 데 있어 인간 안과 의사만큼 능력이 있다는 것이 확인됐다.

2024년 4월 17일자 학술지 PLOS 디지털헬스(PLOS Digital Health)에 발표된 연구에서 케임브리지대 연구팀은 오픈AI GPT-4와 GPT-3.5, 구글 PaLM 2, 메타 LLaMA를 87개 다지선다형 문제로 테스트했다. 문제는 개업 안과 의사나 안과 전문의 교육 과정 수련의가 치르는 교재(FRCOphth Part 2)에서 출제됐지만 이 교재는 인터넷에 공개되지 않아 AI가 미리 학습했을 가능성은 낮다고 한다. 또 이미지 등 텍스트 이외 요소를 포함한 문제는 제외됐다.

또 같은 시험을 안과 전문의 5명, 안과 수련의 3명, 비안과 전공 신진 의사 2명에게 치르게 해 대규모 언어 모델 성능과 인간 의사간 시험 결과를 비교했다. 그 결과 GPT-4는 87문제 중 60문제를 맞혀 수련의 평균점수 59.7점을 조금 웃돌았다. 전문의 평균 66.4점에는 미치지 못했지만 전문의 중 최저점인 56점은 넘었다. 다른 AI도 선전해 PaLM 2는 49점, GPT-3.5는 42점을 받아 신입 의사 평균 37점을 크게 웃돌았다. AI 중 최저점은 LLaMA 28점이었다.

GPT-4는 1차적 회상이 필요한 문제 그러니까 순수한 지식을 묻는 문제 뿐 아니라 정보 보간, 해석, 처리 등 고차원적 추론이 필요한 문제에서도 비슷하게 우수한 성적을 냈다. 연구팀은 기존 AI 의료 연구와 달리 이번 연구에선 AI와 현직 의사간 능력이 직접 비교됐다는 점에서 주목할 만하다고 설명했다. 연구팀은 이 연구를 통해 안구 건강에 관한 대규모 언어 모델 지식과 추론 능력이 이제 전문가와 거의 구별할 수 없는 수준이라는 게 입증됐다고 말했다.

AI가 조기 유방암을 발견하는 등 진단에 도움이 된다는 사실이 차례로 입증되면서 의료 현장에서 AI를 도입하려는 기운이 높아지고 있다. 하지만 AI에는 잘못된 정보를 내놓는 환각 문제가 있어 연구진은 오진이 환자에게 미치는 영향과 그 위험을 평가하는 게 과제라고 지적하고 있다.

의료 AI 가능성을 탐구 중인 한 전문가는 2023년 발표한 연구에서 대규모 언어 모델에 황반변성에 대해 질문했을 때 가짜 참고 문헌을 제시받은 적이 있다고 한다. 이런 점을 감안해 이 전문가는 AI 기술을 임상 현장에 도입하려면 더 많은 연구가 필요할 것이라며 이 기술이 가져올 큰 이점에 대한 기대와 경계심, 회의적 시각 사이의 균형을 잡아야 할 것이라고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.