
구글이 새로운 치료제 개발을 지원하는 AI 모델인 TxGemma를 공개했다. 이 모델은 유망한 타깃을 식별하고 임상 시험 결과를 예측하는 것은 물론 이유를 설명하는 기능도 제공한다. 또 오픈 모델로 제공되기 때문에 누구나 사용할 수 있다.
새로운 치료제 개발 과정에서는 후보 물질이 선정되더라도 임상 시험을 통과하는 비율이 10%에 불과하다. 다시 말해 90% 정도가 임상 시험 과정에서 탈락하며 신약 개발 전체 성공률은 더 낮다. 이에 따라 신약 하나를 개발하는 데 수십억 달러 비용과 10년 이상 시간이 소요되는 경우가 많다.
이번에 공개된 TxGemma는 구글 딥마인드가 개발한 젬마2(Gemma 2)를 기반으로 신약 개발에 특화된 방식으로 훈련된 모델이다. 이 모델은 치료 물질 특성을 이해하고 유망한 타깃을 식별하며 임상 시험 결과를 예측할 수 있다. 구글은 연구실에서 임상 현장까지의 시간과 비용을 절감할 가능성이 있다고 밝혔다.
TxGemma는 700만 개 사례를 사용해 젬마2를 정밀 튜닝한 모델로 예측 모델과 대화 모델로 나뉜다. 예측 모델은 20억 개 파라미터를 가진 2B 모델, 90억 개인 9B 모델, 270억 개인 27B 모델로 출시됐으며 Therapeutics Data Commons에서 추출한 이 분자가 혈액-뇌 장벽을 통과할 수 있는가 같은 분류 작업, 약물 결합 친환성을 예측하는 생성 같은 작업에 특화됐다.
Introducing
— Omar Sanseviero (@osanseviero) March 25, 2025TxGemma!
LLM for multiple therapeutic tasks for drug development
2B, 9B, and 27B
Fine-tunable with transformers
Agentic-Tx for agentic systems
Blog: https://t.co/nTqoWgmgoF
Models: https://t.co/dlcvuYdH6j pic.twitter.com/OOaAZrBhds
대화 모델은 90억 개 파라미터를 가진 9B 모델과 270억 개 파라미터를 가진 27B 모델로 출시됐다. 이 모델은 추론 설명, 질문 응답, 다중 턴 대화 등의 훈련을 받았으며 연구자는 특정 분자가 독성을 갖는 이유는 무엇인지 등 질문을 하면 분자 구조를 기반으로 한 설명을 제공받을 수 있다.
TxGemma가 후보 물질을 선별하면 이후 유전자에 영향을 미치는지, 독성을 갖는지, 1상 임상 시험을 통과할 수 있는지 등 질문을 통해 후보를 추가로 추려내면서 최적의 신약 개발 방향을 결정할 수 있다.
TxGemma는 오픈 모델로 제공되기 때문에 누구나 허깅페이스에서 모델을 다운로드해 사용할 수 있다. 또 추가로 정밀 튜닝을 수행해 개별 연구 및 특정 치료 데이터에 맞춰 적용하는 것도 가능하다. 이를 위한 참고용 코랩(Colab) 노트북도 제공되어 관심 있는 연구자는 이를 활용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.