
인간을 포함한 생물 DNA에는 아데닌(A), 티민(T), 구아닌(G), 시토신(C)라는 4종류 뉴클레오타이드가 수억 개 늘어서 있으며 A, T, G, C 배열에 따라 다양한 생물 형질이 결정된다. 이 ATGC 배열 방식은 염기서열이라 불리며 어떤 요인으로 염기서열 일부가 변이되면 유전질환 등 영향이 발생할 수 있다. 이런 염기서열 변화에 따른 영향’을 분석할 수 있는 AI인 알파지놈(AlphaGenome)이 구글 연구팀에 의해 개발됐다.
구글은 2023년 9월 유전자 변이 유해성을 예측하는 AI 알파미센스(AlphaMissense)를 발표한 바 있다. 알파미센스는 게놈 중 어떤 단백질을 만들지 기록된 영역을 대상으로 한 것이었지만 이번에 발표된 알파지놈은 단백질 설계도로는 기능하지 않는 비코딩 영역도 대상으로 할 수 있다는 특징이 있다. 비코딩 영역은 게놈 대부분을 차지하는 영역으로 이전에는 그다지 중요시되지 않았지만 최근 연구에서 유전자 온·오프를 조절하는 기능 등 중요한 기능을 갖고 있다는 게 밝혀졌다.
알파지놈은 트랜스포머를 기반으로 개발된 유전자 연구용 AI 아키텍처 엔포머(Enformer)를 사용해 구축됐다. 또 학습 데이터에는 ENCODE, GTEx, 4D Nucleome, FANTOM5와 같은 유전자 정보 데이터베이스를 활용했다.
알파지놈에는 최대 100만 개 염기서열을 한 번에 입력 가능하며 유전자 제어 여러 단계에 걸친 복잡한 제어를 포괄적으로 분석할 수 있다. 또 AI 모델로는 처음으로 유전자 변이가 RNA 스플라이싱에 미치는 영향 분석에도 대응했다.
알파지놈과 기존 유전자 분석 AI 모델의 벤치마크 결과를 비교한 그래프에서 알파지놈은 기존 모델에 비해 대폭 높은 성능을 보였다.
구글은 비영리 연구자를 대상으로 알파지놈 API를 제공하고 있으며 유전질환 원인 특정이나 DNA 합성 분야 발전 등에 활용할 수 있다고 어필하고 있다. 한편 현시점의 알파지놈에는 조절인자로부터 10만 염기쌍 정도 떨어지면 영향 예측이 어려워진다, 분자 수준 결과는 예측할 수 있지만 형질이나 질환과의 관련성 전체상을 예측할 수 없다는 문제점이 존재한다고 한다. 연구팀은 이런 문제점을 해결하기 위해 연구를 진행하고 있다고 밝혔다. 알파지놈 API 소개 페이지에는 각종 문서 링크나 구글 연락처 등이 정리되어 있다.
알파지놈 관련 코드와 문서는 깃허브에서 공개되고 있다. 구글은 알파지놈을 사용하는 연구자를 위한 커뮤니티 포럼도 개설했다. 또 알파지놈에 대해 기술한 사전 심사 논문이 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.