FDA 승인 AI 의료기기 “절반은 실제 환자 데이터로 훈련 안했다”

AI 기술 진화는 나날이 발전하고 있으며 이미 의료 현장에도 적용되고 있다. 하지만 환자 프라이버시에 대한 우려나 기기 정확도 등 이유로 AI를 적용한 의료기기나 도구에 대해 회의적인 시각을 가진 이들도 있다. 노스캐롤라이나 대학 의과대학, 듀크 대학, 옥스퍼드 대학, 컬럼비아 대학, 마이애미 대학 등 여러 연구 기관이 AI와 알고리즘 기술이 의료 현장에서 사용되기 위해 얼마나 승인됐는지를 평가하는 논문을 발표했다.

연구팀에 따르면 미국 식품의약국(FDA) AI 의료기기 승인 건수가 급증하고 있다고 한다. 2016년에는 연평균 2건이었던 승인 건수가 지금은 연간 69건까지 증가했다고 한다. 이는 AI 의료 기술 상용화가 급속도로 진행되고 있음을 보여준다.

연구팀은 FDA 공식 데이터베이스인 인공지능 및 기계학습(AI/ML) 활용 의료기기에 게재된 모든 AI 의료기기 신청을 분석했다. 그 결과 FDA가 승인한 AI 의료기기 521건 중 임상 검증 데이터 내역은 후향적 검증 144건, 예측적 검증 148건, 무작위 대조 시험에 의한 게 22건, 임상 검증 데이터가 없는 것이 226건이었음이 밝혀졌다.

후향적 검증은 코로나19가 유행하기 이전 흉부 X-레이 사진 등 과거 이미지 데이터를 AI 모델에 입력해 검증을 수행한다. 예측적 검증은 반대로 환자로부터의 실시간 데이터를 기반으로 검증을 수행하기 때문에 과학적으로 더 강력한 데이터를 얻을 수 있다. 무작위 대조 시험은 예를 들어 CT 스캔 데이터를 인간 방사선과 의사(대조군)와 AI(실험군)에 무작위로 배정해 기기 성능을 평가하는 방법이다.

하지만 연구팀은 FDA 승인을 받은 AI 의료기기 43%에서 임상 검증 데이터가 공개되지 않은 점에 주목하고 있다. 더구나 일부 기기는 실제 환자 데이터가 아닌 컴퓨터로 생성한 가상 이미지를 사용해 임상 검증 요건을 충족하지 못한 사례도 있었다고 한다. 연구팀은 2023년 9월에 발표된 FDA 지침에서 서로 다른 종류 임상 검증 연구 구별이 제조업체에 대한 권장 사항에 명확히 제시되지 않았다는 점도 지적했다.

이 결과를 받아 연구팀은 FDA와 기기 제조업체에 대해 임상 검증 연구 종류를 명확히 구별하고 그 결과를 공개할 것을 강력히 권고하고 있다. 또 후향적 검증, 예측적 검증, 무작위 대조 시험 각각의 정의를 표준화하고 업계 전체에서 사용할 것을 제안했다. 관련 내용은 이곳에서 확인할 수 있다.