테크레시피

마이크로소프트 AI 도구, 80% 정확도로 질병 진단 가능

마이크로소프트는 복잡한 의료 진단에서 인간 의사보다 뛰어난 성능을 발휘하는 의료 분야 슈퍼인텔리전스를 개척하는 인공지능 시스템인 마이크로소프트 AI 진단 오케스트레이터(Microsoft AI Diagnostic Orchestrator. MAI-DxO) 세부사항을 발표했다. 마이크로소프트에 따르면 MAI-DxO는 의사 진단보다 저렴하면서도 4배 이상 정확도로 정확한 진단을 내릴 수 있다고 한다.

마이크로소프트는 의료 수요 증가에 따라 의료비가 지속 불가능한 속도로 상승하고 있으며 수십억 명이 건강 증진을 위한 다양한 장벽에 직면하고 있다면서 부정확한 진단이나 진단 지연도 그 중 하나라고 밝혔다. 이어 의료 조언이나 지원을 구하기 위해 디지털 도구를 이용하는 이들이 늘고 있어 더 많은 지원을 제공하고 싶다고 밝혔다. 실제로 빙이나 코파일럿 같은 마이크로소프트 소비자 대상 AI에서는 매일 5,000만 건 이상 건강 관련 세션이 진행되고 있다고 한다.

마이크로소프트 AI 부문은 2024년 말부터 소비자 헬스케어에 특화된 노력 일환으로 임상의, 디자이너, 엔지니어, AI 과학자가 주도하는 프로젝트를 시작했다. 마이크로소프트가 먼저 중시한 건 의료용 AI 벤치마크 확립. 기존에는 미국에서 의사로 활동하기 위해 필요한 의사 면허 시험을 벤치마크로 삼는 경우가 많았지만 의사 면허 시험은 선택형 암기 문제로 대다수 AI가 만점 답안이 가능했다. 그 틀을 벗어나 테스트가 아닌 실무에서의 임상 추론 기능 발전과 평가에 마이크로소프트는 매진하고 있다.

마이크로소프트가 제작한 순차 진단 벤치마크(SD벤치)는 가장 권위 있는 동료 심사 의학 저널 중 하나인 NEJM 증례를 추출해 단계적 진단 과정으로 변환한다. 모델은 추론을 바탕으로 반복적으로 질문을 던지고 새로운 정보를 얻으면 추론을 업데이트하며 최종 진단으로 좁혀나간다.

기준이 되는 벤치마크 외에도 마이크로소프트는 다양한 진단 접근법을 가진 의사가 협력해 진단 사례를 해결하는 가상 패널을 에뮬레이트하는 시스템인 MAI-DxO를 개발했다. 이는 모든 언어 모델을 임상의 가상 패널로 변환한다는 것. 개별 모델이 임상 워크플로를 관리하는 게 아니라 여러 언어 모델이 결합되어 다양한 데이터 소스를 효율적으로 통합할 수 있을 뿐 아니라 안전성과 투명성을 높이면서 끊임없이 변화하는 의료 요구에 대한 적응성을 높일 수 있다고 한다.

마이크로소프트는 MAI-DxO를 여러 언어 모델과 결합해 실험한 결과 테스트한 모든 모델에서 진단 성능이 대폭 향상됐다고 보고했다. 그 중에서도 뛰어난 성능을 발휘한 건 오픈AI 추론 모델인 o3를 MAI-DxO와 결합한 모델로 NEJM 벤치마크 증례의 85.5%를 올바르게 진단했다. 미국과 영국 임상 경험 5~20년차 의사 21명이 같은 진단 과업을 수행한 결과 증례를 올바르게 진단할 수 있었던 건 평균 20% 정도였던 것으로 나타나 마이크로소프트는 MAI-DxO는 인간 의사보다 4배 이상 정확도를 달성했다고 밝혔다.

또 의료용 AI 특징으로, 정의된 비용 제약이 없는 경우 종종 치료비나 환자의 의사, 치료에 소요되는 시간 등을 무시하고 모든 검사를 실시해버린다. 따라서 비용을 지정하면 적절한 진단을 받기 쉬워지지만 MAI-DxO는 다른 AI 모델이나 빨간 십자로 표시된 인간 진단과 비교해 비용 대비 진단 성능도 뛰어나다.

마이크로소프트는 MAI-DxO가 복잡한 진단 과업 대응에 뛰어난 반면 일반적이고 일상적인 증례에서의 성능을 평가하려면 추가 검증이 필요하다고 향후 과제를 밝혔다. 또 저렴하면서도 4배 뛰어난 성능을 발휘할 수 있는 AI로 인해 의사가 AI에 대체될 것이냐는 의문에 대해서는 임상의 역할은 AI로는 대응할 수 없는 애매한 상황을 극복하고 환자나 가족과의 신뢰 관계를 구축해야 하는 등 단순한 진단보다 훨씬 광범위하다며 AI는 의료에서 강력한 도구가 되고 있지만 현역 임상팀은 AI가 의사나 기타 의료 전문가를 보완하는 존재라고 생각한다고 답했다.

마이크로소프트는 이는 단지 첫 번째 단계에 불과하다며 생성형 AI를 의료 분야 전체에 안전하고 책임감 있게 도입하려면 신뢰성, 안전성, 그리고 유효성을 확보하기 위해 실제 임상 환경에서 얻은 증거와 더불어 적절한 거버넌스와 규제 틀이 필요한 등 중요한 과제가 남아있다고 밝혔다. 이어파트너와 함께 인간 전문성과 공감을 기계 지능의 힘으로 강화해 헬스케어 미래가 형성될 것이라고 강하게 믿으며 이 비전의 실현을 향해 새로운 발걸음을 내딛는 것에 흥분하고 있다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독