챗GPT가 공동 저자로 이름 올린 연구 논문, 내용은?

챗GPT(ChatGPT)는 인간 이익을 위해 다양한 이용 방법이 생각되는 한편 인간 대신 시험 수험이나 논문 집필을 실시할 수 있는 걸 문제시하는 목소리도 있다. 이미 연구 논문 저자에 챗GPT가 더해진 논문이 있다며 학술지 네이처가 실태를 보고하고 있지만 그 중 하나는 대규모 언어 모델이 의학상 지원, 교육에 어떻게 공헌할 수 있는지 의지를 측정하는 것이었다.

이 논문은 USMLE(United States Medical Licensing Exam)라고 불리는 미국 의사 면허 시험을 챗GPT에게 받게 하는 내용이다. USMLE은 기초 과학과 임상 추론, 의료 관리, 생명 윤리 등 의사 지식 기반을 모두 다루는 인간을 위한 시험이다. 복잡한 임상 데이터를 바탕으로 문장을 기술하는 문제도 포함되어 있지만 챗GPT는 풍부한 언어 표현이 가능하기 때문에 챗GPT에 해답을 내게 하는 게 가능하다고 생각했다고 한다.

일반적으로 공개된 376개 문항 시험 문제에 대해 이미 챗GPT에 학습됐을 가능성이 있다는 문제를 배제하고 결국 305개 문항을 택해 이들을 챗GPT에 입력하고 해답을 쓰게 하도 해답은 의사 2명이 채점했다.

그 결과 챗GPT는 94.6% 일치율로 문제 내용에 따른 해답을 출력해 모든 항목에서 50% 이상 정답률을 보였다고 한다. 이 중 대부분이 정답률 60%를 넘고 있었다고 한다. 하지만 USMLE 합격 기준은 매년 정답률 60% 정도이기 때문에 챗GPT는 빠듯하게 합격권에 들어갈 것이라고 한다.

또 해답 내용 신규성이나 독자성, 타당성을 채울지 어떤지 면밀하게 검토했는데 전체적으로 88.9% 해답으로 적어도 1개는 유의한 통찰을 가져왔다고 한다. 이로 인해 챗GPT는 의학을 배우는 사람을 지원할 수 있다는 것. 해답에서 새로운 지식과 개선책을 얻을 수 있는 것 등 다양한 이점이 있다는 주장이다. 또 챗GPT 정밀도는 USMLE 중에서 가장 어려운 것으로 여겨지는 스텝1 점수가 가장 낮았다고 한다. 원인은 인간이 의학을 어렵고 불투명한 것으로 인식하고 특정 소재에 대한 표현이 부족하기 때문에 일어난 모델 학습 부족에 있을지 모른다고 밝히고 있다. AI 능력이 인간 능력에 좌우되는 취약성이 있다고 지적하고 있다. 덧붙여 스텝1은 의학부에서 2년 교육 과정을 마친 학생이 수험하는 것으로 공부를 위해 300∼400시간이 소비된다고 한다.

연구팀은 챗GPT의 눈부신 성능에 영감을 받았으며 가상 만성 폐질환 클리닉 임상의는 워크플로 일부로 챗GPT를 시도하게 시작했다며 전문 용어가 많은 기록을 환자에게 알기 쉽게 표시하는 것, 모호하고 진단이 어려운 사례에 직면했을 때 브레인스토밍을 실시하는 등에 사용되고 있으며 전체적으로 문서 작성과 환자 케어에 필요한 시간이 33% 감소한 것으로 보고됐으며 이는 챗GPT와 같은 자연어 처리 모델이 성숙하고 있음을 나타내는 중요한 초기 신호이며 곧 임상 관리 전체에 영향을 미치고 확장 가능한 건강 관리를 제공하는 능력을 향상시킬 것으로 믿는다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기