오픈AI가 개발한 대화형 AI인 챗GPT는 미국 의사 면허 시험 USMLE(United States Medical Licensing Exam)에 합격할 수 있다는 연구 결과도 보고될 정도로 정밀한 문장을 생성하는 게 가능하며 다양한 분야 응용이 기대되고 있다. 새롭게 미국 캘리포니아대학 샌디에이고 연구팀이 실시한 연구에선 챗GPT가 생성한 환자에 대한 조언과 인간 의사에 의한 조언을 전문가가 비교한 결과 챗GPT 조언이 높은 평가를 얻을 수 있다고 한다. 또 일부 의료기관에선 의료 종사자 부담을 줄이기 위해 AI를 이용하려는 시도가 시작됐다고 한다.
연구팀은 챗GPT가 환자 질문에 적절한 답변을 할 수 있냐는 답변을 비교하는 실험을 실시했다. 연구팀은 챗GPT는 의사 면허 시험에 합격할 수 있지만 환자 질문에 직접적이고 정확하며 공감적인 답변을 할 수 있느냐는 건 또 다른 얘기라고 지적한다.
실험에 사용되는 환자 질문과 의사 답변을 수집하기 위해 연구팀은 레딧 내 포럼(AskDocs)에 주목했다. 이곳에선 환자로부터의 질문에 대해 중재자에 의해 신원이 검증된 의사가 답하는 포럼으로 방대한 질문과 답변이 올라와 있다.
연구팀은 이곳에서 질문과 답변 195개를 무작위로 수집하고 원래 질문을 챗GPT에 제공해 답변을 생성했다. 그리고 의료 전문가 3명에게 질문과 챗GPT에 대한 답변, 의사 답변에 대해 평가하도록 했다. 응답을 평가한 의료 전문가에게는 응답이 챗GPT에 의한 것인지 인간 의사에 의한 것인지 공개되지 않았다.
실험 결과 의료 전문가는 78.6% 비율로 인간 의사에 의한 답변보다 챗GPT 답변을 선호했고 질이 높다고 평가하는 답변 비율도 챗GPT 쪽이 3.6배 높았다고 한다. 또 환자 질문에 대해 공감적, 매우 공감적 등으로 평가하는 응답 비율은 인간 의사의 경우 4.6%였지만 챗GPT는 45.1%에 도달했다고 한다.
연구팀에 따르면 챗GPT 답변은 인간 의사에 의한 답변보다 문장량이 많아 이 점이 답변에 대한 고평가로 이어졌을 가능성이 있다고 한다. 연구팀은 챗GPT 메시지는 뉘앙스가 있는 정확한 정보로 응답하고 환자 질문에 대한 의사 답변보다 많은 측면에 대응할 수 있는 게 많았다고 지적했다.
연구팀 일원은 챗GPT는 자신의 받은 편지함에 내고 싶은 처방전이라며 이 도구는 환자에 대한 지원 방법을 바꿔줄 것이라고 말했다. 또 다른 연구자는 챗GPT와 의사를 비교했지만 최종 솔루션이 의사를 쫓아내는 건 아니라며 의사가 챗GPT를 활용해 더 나은 공감적 치료를 할 수 있다고 밝혔다.
이미 캘리포니아와 위스콘신에선 오픈AI 대규모 언어 모델인 GPT-4를 의료 현장에서 사용하려는 시도가 진행 중이다. 위스콘신에 본사를 둔 에픽이라는 의료 기술 기업은 환자가 의료 종사자에게 메시지를 보낼 수 있는 도구인 마이차트(MyChart)를 개발하고 있다. 코로나19 유행 중 마이차트 사용자는 대폭 증가해 2020년 1분기에는 1억 600만 건이었던 로그인 수가 2023년 1분기에는 2억 6,000만 건으로 증가했다고 한다.
올해 4월 에픽은 마이크로소프트가 제공하는 클라우드 서비스인 애저를 통해 오픈AI GPT-4를 이용해 환자 질문에 대한 회신을 생성하는 테스트를 시작했다. 캘리포니아대학 센디에이고 의대도 이 시험에 참가하고 있으며 한 전문가는 팬데믹 이후 환자 메시지가 급증해 AI에 의한 회신 지원 도구 일부는 의료진에게 희망이 있다고 밝히고 있다.
의료 전문가가 환자 메시지를 클릭하면 에픽 AI 도구는 메시지 정보와 병원에 저장된 전자 의료 기록 단축 버전을 참조해 곧바로 회신 초안을 생성한다. 의료 종사자는 메시지 내용이 맞으면 세세한 부분을 편집하거나 그대로 회신할 수 있고 잘못됐다면 직접 재작성할 수도 있다. AI는 환자 메시지에 여행으로부터 돌아왔다는 말이 있다면 여행이 좋은 것이었는지 어떤지 회신으로 질문하는 등 의료 종사자가 하는 인간적 터치도 재현할 수 있었다고 한다.
한편 챗GPT 같은 대화형 AI는 때로 있을지도 모르는 일을 쭉 올리는 것도 알려져 내용을 그대로 신뢰할 수는 없다. 따라서 연구팀은 AI를 이용해 의학적 조언을 요청하는 질문에 대답할 수 없으며 처방전 요청과 문서 청구 같은 제한적 질문에 대한 회신으로 제한해 AI를 이용하고 있다. 관련 내용은 이곳에서 확인할 수 있다.