테크레시피

챗GPT는 응급실 환자 정확한 진찰 가능할까

오픈AI가 개발한 대화형 AI인 챗GPT는 다양한 질문에 대해 높은 정확도로 답변할 수 있으며 미국 의사 면허 시험인 USMLE(United States Medical Licensing Exam)에서 합격권 내에 들어가는 성적을 낸 것으로 알려져 있다. 이런 챗GPT가 진정한 임상 현장에서 사용 가능한지 여부를 조사하기 위해 응급실에서 일하는 한 의사가 실제로 응급실로 옮겨진 환자에 대한 데이터를 챗GPT에 입력하고 정확한 진찰을 내릴 수 있을지 조사하는 실험을 실시했다.

이전부터 AI를 이용해 의료 질과 효용성이 향상된다고 생각한 이 의사는 챗GPT가 의사 면허 시험으로 합격권 내에 들어가는 성적을 냈다는 뉴스롤 보고 실제 의료 현장에서 어떻게 기능하는지 흥미를 가졌다고 한다. 따라서 2023년 3월 응급과에서 임상 시프트에 들어간 뒤 응급과로 반송되어 온 35명 이상 환자가 호소하는 병리와 경과를 정리한 병력을 익명화했다. 이 익명 병력 데이터를 이용해 챗GPT에 대해 구급실에 내원한 환자 감별 진단은 어떻게 되냐고 질문해 결과를 조사한 것.

실험 결과 정확하고 상세한 병력을 입력하면 챗GPT는 제대로 진단 결과를 출력했다고 한다. 하지만 챗GPT는 자신이 진찰한 환자에게 1인당 6패턴 진단을 제안했다며 환자 절반 정도였으며 나쁘지는 않았지만 긴급 외래에서 성공률이 50%라는 건 그다지 좋지 않다고 말할 수 있다고 밝혔다. 챗GPT 진찰에서 최악의 경우는 오른쪽 하복부 통증을 호소하고 응급실로 이송된 21세 여성 사례. 챗GPT는 여성 병력 중 맹장염과 난소낭종 감별 진단을 했지만 중요한 진단을 놓쳤다고 한다. 챗GPT가 놓친 진단은 수정란이 자국내막이 아닌 장소에 착상해버리는 자궁 외 임신이다. 놓친 자궁 외 임신은 난관 파열 등을 일으킬 가능성이 있으며 급격한 하복부 통증과 대량 출혈에 의해 쇼크사 위험이 있는 것으로 놓치면 환자 생명에 관련한 질병이다. 다행스럽게도 의사는 자궁 외 임신을 간파하고 현장에선 곧바로 치료할 수 있었다. 하지만 환자가 응급실로 옮겨진 시점에선 의사는커녕 환자 자신도 임신 사실을 몰랐다고 한다.

이에 의사는 자궁 외 임신 가능에 대한 질문을 했지만 임신하지 않은 이유를 묻자 피임구 사용이나 불임으로 이어지는 특정 질병에 대해 대답하지 않는 환자는 본인이 다양한 이유로 임신하고 싶지 않다거나 임신하면 곤란하다고 생각하고 있을 가능성이 높다고 한다.

응급실에서 임신리 발각된 여성 중 8%는 성적으로 활발하지 않다고 보고되고 있으며 복부 통증을 호소하는 환자가 실제로는 임신했다는 사례가 종종 있다고 한다. 하지만 챗GPT가 후보로 언급한 진단은 환자가 임신했을 가능성을 암시하지 못했고 환자에게 임신 여부를 묻도록 촉구하지 않았다.

이 의사는 자신이 두려워하는 건 이미 셀 수 없는 사람이 의사 진찰을 받는 게 아니라 챗GPT를 이용해 자가 진단을 하는 게 아닐까 하는 것이라며 이번 환자가 그랬다면 챗GPT 대응으로 죽었을지 모른다고 밝혔다. 그 밖에 챗GPT는 뇌종양을 앓고 있는 환자 2명을 놓친 것 외에 동체 통증을 호소하는 환자에 대해 신장 결석이 있다고 진단했지만 실은 대동맥 파열이었던 케이스 등이 있었다. 이렇게 챗GPT는 생명 위기가 있는 복수 환자에 대해 오진했다고 한다.

이 의사는 챗GPT는 자신이 완벽한 정보를 제공하고 환자가 고전적인 병리를 호소했을 때 진단 도구로 잘 작동한 게 합격 이유일지 모른다며 챗GPT가 시험에서 정답을 맞춘 건 이미 명확한 대답이 데이터베이스에 있었기 때문일지 모른다고 지적하고 있다.

이번에 진찰한 응급실 환자의 경우에서도 알 수 있듯이 많은 환자는 구글 검색 등에 나오는 고전적인 사례 보고에 해당되지 않는다며 방문 환자가 손목이 아프다고 호소하더라도 최근 사고로 인한 게 아니며 정신적 스트레스가 요인이거나 성 감염이 원인이거나 완전히 다른 게 이유이기도 한다고 말한다.

챗GPT는 의사 진찰을 지원하는 조수 역할을 할 수 있지만 챗GPT에 입력한 현 병력에 원래 필요한 질문이 포함되어 있지 않은 경우 챗GPT는 이 질문을 무시하고 답변하기 때문에 의사 잠재적으로 중요한 질문을 놓치는 걸 조장한다. 자궁 외 임신 여성의 경우를 예로 들면 만일 의사가 임신 가능성을 생각하지 않으면 챗GPT 답변도 임신 가능성을 제외한 게 되어 버린다는 것이다.

이 의사는 챗GPT는 이런 가능성을 제외하고 당연하다고 생각하는 것만 말해 세계에서 가장 위험한 예수님처럼 편견을 정당화했을 것이라고 지적한다. 그는 챗GPT가 임상 현장에서 위험할 수 있다는 가능성을 지적하면서 AI는 의학에서 잠재적으로 유용하다는 견해를 제시한다. 예를 들어 인간 의사는 평생 진찰할 수 있는 환자 수에 한계가 있으며 환자를 진찰할 때에도 몇 가지 중요한 요인을 목격하고 있다. 하지만 AI를 활용해 제한된 변수 뿐 아니라 수백만 개 변수를 대량 환자와 비교할 수 있게 되면 진단 정확도가 극적으로 향상된다. 의사가 진찰하는 환자 1명에 대해 데이터베이스 중 유사 환자를 대량으로 찾아내 어떤 치료로 병상이 호전되는 경향이 있는지 알 수 있다. 이런 점에서 무수한 환자 특징을 순간적으로 처리하고 방대한 통찰력을 주는 AI가 활약할 수 있다는 것. 한편 챗GPT와 같은 대화형 AI는 인간 건강에 해를 끼칠 위험성도 있기 때문에 너무 부풀려 생각하지 않도록 주의가 필요하다고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독