테크레시피

과학 논문 조사에 특화된 AI 모델 ‘오픈스칼라’ 나왔다

최근 생명 분자 구조와 상호작용을 예측하는 AI 모델인 알파폴드3(AlphaFold 3)가 출시되거나 챗GPT 덕분에 논문을 읽는 수고가 99% 줄었다고 연구자가 보고하는 등 과학 연구에서 AI 활용은 더 중요해지고 있다. 새롭게 워싱턴 대학과 앨런 인공지능 연구소 연구팀이 과학 문헌 조사에 특화된 AI 모델인 오픈스칼라(OpenScholar)를 출시했다.

과학 연구에서는 선행 연구 내용과 과제를 파악하는 게 중요하지만 매일 엄청난 양에 달하는 과학 논문과 문헌이 발표되고 있는 현실에서는 자신의 분야 최신 연구를 따라가는 것만으로도 많은 노력이 필요하다. 오픈스칼라는 이런 과학자 부담을 줄이기 위해 사용자 쿼리에 따라 관련 논문을 찾아내고 그 내용을 바탕으로 답변을 생성해주는 AI 모델이다.

오픈스칼라는 앨런 인공지능 연구소가 개발한 학술 문헌 검색 서비스인 시맨틱스칼라(Semantic Scholar)에 포함된 4,500만 건 이상 논문과 2억 4천만 건에 달하는 관련 문장 조합으로 이뤄진 데이터셋을 사용해 훈련됐다. 또 반복적인 자체 피드백을 사용해 모델 출력을 개선했다고 한다.

연구팀은 과학적 질문 관련 벤치마크(OpenScholarQABench)를 사용해 메타 Llama-3-8B나 GPT-4o 등 대규모 언어 모델과 오픈스칼라 성능을 비교했다. 그 결과 오픈스칼라는 응답 정확성과 인용 정확도 면에서 훨씬 많은 파라미터를 가진 GPT-4o 등보다 우수한 성능을 보였다. 그 중에서도 자유 응답 형식 질문에서는 GPT-4o와 다른 모델이 80~95% 부정확하거나 실제로 존재하지 않는 논문을 인용한 반면 오픈스칼라는 높은 비율로 실제 존재하는 논문을 인용했다.

오픈스칼라 파라미터 수는 단 80억 개이며 아키텍처도 과학 문헌 조사에 특화되어 있어 개발도상국 연구기관이나 예산이 제한된 연구자에게 훨씬 더 비용 효율적인 선택이 될 수 있다. 또 GPT-4o를 기반으로 오픈스칼라 데이터셋과 생성 파이프라인을 적용했을 때 품질이 더 향상되는 것도 확인됐다.

컴퓨터 과학, 물리학, 생물의학 등 전문가를 대상으로 GPT-4o 또는 오픈스칼라가 출력한 응답과 사람이 작성한 응답 중 어느 것을 선호하는지 답변받은 결과를 보면 GPT-4o 응답을 선호하는 전문가 비율은 39.6%였던 반면 오픈스칼라 응답을 선호하는 비율은 51.5%로 인간 응답을 능가했다. 또 GPT-4o를 기반으로 한 오픈스칼라 응답은 70% 이상 전문가가 선호하는 결과를 보였다.

오픈스칼라 한계로는 데이터셋이 오픈 액세스 논문으로 제한되어 있어 유료 논문이 다수를 차지하는 분야에서는 응답에 필요한 논문을 인용하지 못할 가능성이 높다는 점이 있다. 또 대부분 언어 모델에 존재하는 환각으로 보이는 부정확한 인용을 하거나 질문에 대한 대표적인 논문을 인용하지 못하는 경우도 있다고 한다.

그럼에도 오픈스칼라는 AI를 활용한 과학 연구의 중요한 한 걸음이며 이를 바탕으로 더 효율적인 AI 시스템이 구축될 것으로 기대된다. 오픈스칼라 모든 코드와 훈련 데이터, 벤치마크 결과 등은 깃허브허깅페이스에서 공개되어 있다. 참고로 현재 공개된 웹 버전은 데모용이며 컴퓨터 과학 관련 질문과 논문에만 대응한다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular