테크레시피

생물의학 분야에 특화된 AI ‘바이오GPT’

현대 과학은 지금까지 축적된 대량 과학적 지식 위에 성립되어 있어 방대한 선행 연구로부터 중요한 정보를 끌어내는 게 중요하다. 마이크로소프트리서치(Microsoft Research)가 방대한 의학 문헌으로 학습하고 생물 의학 분야 질문에 답하는 작업에 특화된 AI인 바이오GPT(BioGPT)를 개발했다.

이전부터 연구자는 방대한 의학 문헌 중에서 적절한 지견을 효율적으로 이끌어 내기 때문에 사전 훈련된 언어 모델이 유용한 게 없을까 고민했다. 하지만 일반 언어 모델을 그대로 생물 의학 분야에 적용하면 정밀도가 충분하지 않아 의학 문헌으로 언어 모델을 학습시킨다는 수법이 고안되어 지금까지 바이오버트(BioBERT), 퍼브매드버트(PubMedBERT) 같은 생물 의학 분야에 특화된 사전 훈련된 언어 모델이 개발됐다.

이들 2가지는 구글이 개발한 문맥 이해가 뛰어난 자연어 처리 모델인 BERT를 기반으로 헀지만 더 생성 작업이 뛰어난 오픈AI GPT 모델을 생물 의학 분야에서 적용한 건 없다. 따라서 마이크로소프트리서치 연구팀은 2019년 발표된 GPT-2를 바탕으로 광범위한 생물의학 문헌으로 훈련한 언어 모델을 개발하기로 했다.

연구팀은 생물의학 분야에 특화된 언어 모델을 개발함에 있어 생물의학 관련 학술 문헌 검색엔진 퍼브메드(PubMed) 데이터베이스로부터 2021년 이전에 발표된 영어 논문을 텍스트 기반으로 수집했다. 이에 의해 얻은 제목과 요약을 포함한 1,500만 건 콘텐츠를 데이터세트 삼아 AI 학습용 GPU인 엔비디아 V100 8대를 이용해 20만 스텝 사전 학습을 실시하고 이후 엔비디아 V100 1대에서 32스텝 미세 조정을 실시했다고 한다. 이어 엔드투엔드 관계 추출이나 텍스트 생성, 질의응답, 문서 분류 등 태스크용 3억 7,500만 파라미터를 이용해 모델을 개량했다.

이렇게 개발된 생물의학 분야 특화 AI가 바이오GPT다. 생물의학 분야 질문에 대한 답변이나 엔드투엔드 관계 추출에 있어 BERT 기반 과거 모델보다 뛰어나다고 연구팀은 주장하고 있다. 또 바이오GPT는 퍼브메드가 제공하는 데이터세트(PubMedQA) 벤치마크에서 78.2% 정확도를 획득해 인간 전문가 성능인 78%를 웃돌았다. 또 바이오GPT를 이용 가능한 최대 GPT-2 아키텍처 스케일업한 바이오GPT라지(BioGPTLarge)는 81% 정밀도를 기록하고 있다.

바이오GPT라지 파라미터 수는 15억 개이며 파라미터 수 5,400억 개인 Flan-PaLM나 1,200억 개인 Galactica를 크게 밑돈다. 이번 결과는 비교적 소규모이면서도 특정 분야에 특화된 언어 모델이 훨씬 더 큰 일반 언어 모델과 충분히 경쟁할 수 있다는 걸 보여줬다고 할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사