구글 진찰 특화 AI, 인간보다 정확한 진단 가능하다?

병이나 부상을 입었을 때 병원이나 클리닉에선 의사와 환자 사이에서 진찰이라고 불리는 증상이나 병력 청취 등 정보 교환이 이뤄진다. 구글이 개발한 새로운 AI 모델인 AMIE(Articulate Medical Intelligence Explorer)는 진찰에 특화되어 있어 독자 조사에선 인간 의사보다 AMIE 쪽이 적절한 진단을 내릴 뿐 아니라 환자에 대한 인상이 뛰어난 것으로 보고됐다.

진찰은 환자에 대한 파악과 적절한 처치에 대해 결정할 수 있을 뿐 아니라 환자 감정에 공감적으로 반응해 환자 정신케어도 동시에 실시할 수 있다. 하지만 기존 대규모 언어 모델은 의료 분야에 관한 논문 요약이나 의학적 질문에 대한 답변 등 작업을 정확하게 수행하는 게 가능했지만 지금까지 진찰을 목적으로 개발된 AI는 거의 없었다.

구글리서치와 구글 딥마인드 연구팀이 공동 개발한 AMIE는 진찰에 최적화된 대화형 의료 AI다. 연구팀에 따르면 AMIE는 임상의와 환자 관점에서 학습을 받았다. 더구나 학습 데이터로 사용할 수 있는 현실 세계 의료에 관한 대화가 부족하다는 과제에 대응하기 위해 연구팀은 셀프 플레이 기반 모의 대화 환경을 개발하고 AMIE에 자동 피드백 기능을 탑재했다. 그 결과 AMIE는 다수 병리나 전문 분야, 시나리오에 대응하는 게 가능해져 대화와 피드백을 반복해 응답이 서서히 정교해져 환자에 대한 정확하고 근거 있는 응답을 도출할 수 있게 됐다.

AMIE를 개발할 때에는 먼저 전자의료기록과 문장화된 진찰 등 현실 세계 데이터세트를 이용해 기본 대규모 언어 모델 미세 조정이 이뤄졌다. 이후 연구팀은 대규모 언어 모델로 가상 환자에 대해 병력을 이해하고 진단하도록 지시하는 훈련을 반복했다.

연구팀은 최종적으로 피험자 20명에게 대화를 하고 있는 게 AMIE인지 인간 의사인지를 엎드린 상태에서 온라인 채팅을 통해 진찰을 실시하는 실험을 실시했다. 피험자에게는 149건에 이르는 진찰 시나리오를 실시해 진찰 평가를 실시하도록 요구됐다.

실험 결과 AMIE는 진단 정확성, 치료에 대한 신뢰감, 의사 정직도, 의사 공감, 지시 정확성, 환자 건강 관리라는 6개 의료 전문 분야 모두에서 인간 의사 진단 정확도에 필적하거나 이를 초과하는 결과가 얻어졌다.

또 AMIE는 예의 정도, 병상 및 치료 설명, 성실함, 환자에 대한 걱정 등 대화 품질에 관한 26개 항목에서 24개 항목으로 의사를 상회한 것으로 보고됐다. 또 인간 의사가 진찰을 할 때 AMIE를 이용하면 진단 정확도가 크게 향상된다는 게 밝혀졌다.

연구팀은 이번 결과는 AMIE가 결코 의사보다 뛰어나다는 걸 나타내는 건 아니라고 지적한다. 이 연구에 참가한 의사는 텍스트 기반 채팅을 통해 환자와 진찰을 하는 것에 익숙하지 않았고 그 결과 성능 저하로 이어졌을 가능성이 있다고 한다. 그럼에도 AMIE는 일관성 있는 응답을 빠르게 생성할 수 있다는 장점이 있는 것 외에 피로를 모르는 AI는 어떤 환자에게도 일관되게 배려할 수 있다고 밝혔다.

연구팀은 다음 단계로 실제로 병을 앓는 환자에게 AMIE를 테스트하기 위한 윤리적 요건 조사를 들었다. AMIE를 이용하게 되는 환자 프라이버시도 고려해야 할 중요한 측면이며 현재 대규모 언어 모델 문제점은 데이터가 어디에 저장되고 어떻게 분석되는지 밝혀지지 않는 경우가 존재하기 때문이라고 말한다. 관련 내용은 이곳에서 확인할 수 있다.