알파벳 산하 인공지능 기업인 딥마인드는 2018년 아미노산 배열 정보로부터 단백질 입체 구조를 예측하는 AI인 알파폴드(AlphaFold)를 개발했다. 이후에도 개선을 거듭해 2021년 7월에는 오픈소스화된 알파폴드가 등장했다.
단백질은 근육 수축과 혈액 수송, 빛 감지, 식품 에너지 변환 등 거의 모든 생물학적 과정과 관련된 물질이다. 이런 단백질은 20종류 L-아미노산이 쇄상으로 다수 연결한 입체적인 고분자 화합물이며 아미노산 잔기(amino acid residue)라고 불리는 아미노산 단위가 어떻게 연결되어 있는지 1차원적인 서열 정보 밖에 모른다.
인간이 발견한 단백질은 2억이 넘지만 대부분은 아미노산 서열 밖에 밝혀지지 않았고 단백질 입체 구조가 특정된 건 소수다. 단백질 입체 구조는 거동이나 기능과 밀접하게 관련되어 있기 때문에 아미노산 서열로부터 입체 구조를 추측하는 건 단백질 폴딩(protein folding) 문제로 불리며 오랫동안 생물학상 큰 문제가 되어왔다.
지금까지 연구에선 단백질 입체 구조를 밝히기 위해 저온전자현미경법(Cryo-electron microscopy)이라는 실험적 수법이 이용되어 왔지만 이것에는 시간이나 비용이 든다. 따라서 최근에는 AI에 의한 폴딩 문제 해결이 기대되고 있다. 딥마인드가 2018년 개발한 알파폴드는 2018년 국제 단백질 구조 에측 콘테스트 CASP에서 우승을 거둔 데다 2020년 CASP에서 알파폴드 최신 버전이 실험적 방법과 같은 수준 정밀도를 기록해 주목을 받았다.
연구자는 알파폴드가 오픈소스가 되기 전부터 딥마인드 알파폴드팀 강연 등을 바탕으로 독자 AI 툴(RoseTTAFold)을 개발했다. 2021년 7월 마침내 알파폴드가 오픈소스로 공개됐고 연구자는 알파폴드를 널리 이용할 수 있게 됐다.
이스라엘 히브리대학 단백질 연구자는 알파폴드는 게임체인저라며 이는 지진과 같다고 말한다. 또 유니버시티칼리지런던 컴퓨팅 생물학자는 자신이 참여하는 모든 회의에서 알파폴드를 사용해 보면 어떨까라고 말한다고 밝혔다.
실제로 알파폴드를 단백질 관련 연구에 적용하려는 시도도 진행되고 있다. 독일 막스플랑크생물물리학연구소 연구팀은 세포 핵을 출입하는 물질이 통과하는 핵막공복합체(Nuclear pore)와 이를 구성하는 뉴클레오폴린(nucleoporin)이라는 단백질에 대해 2016년 연구에서 핵막공복합체 30%를 커버하는 모델을 발표했다. 이후 2021년 오픈소스화된 알파폴드를 이용해 모델을 조정한 결과 20211년 10월에는 핵막공복합체 60%를 커버하는 모델을 발표할 수 있었다고 한다. 또 딥마인드는 2022년 모두 1억 개 이상 단백질 이베구조 예측을 발표할 예정이다. 1억이라는 숫자는 알려진 단백질 절반 가량으로 단백질 데이터 뱅크 구조 리포지토리 내에 포함된 실험적 방법으로 입체 구조가 특정된 단백질 수백 배에 해당한다고 한다.
실제로 2021년 7월 알파폴드가 오픈소스가 된 이후 알파폴드를 이용한 논문은 급격하게 증가하고 있다고 한다. 알파폴드는 PBD와 기타 데이터베이스에 등록된 실험적 방법으로 입체 구조가 확인된 단백질 데이터로 훈련되고 있다. 새로운 아미노산 서열을 부여받은 알파폴드는 먼저 데이터베이스에서 관련 서열을 찾고 유사한 입체 구조를 가진 경향이 있는 아미노산을 확인한다. 또 기존 관련 단백질 구조는 새로운 아미노산 서열에서 아미노산 사이 거리를 추정하는 데에도 도움이 된다. 이런 다양한 단서를 바탕으로 알파폴드는 단백질 입에 구조를 예측한다.
딥마인드에 따르면 지금까지 40만 명 이상 유럽분자생물학연구소가 관리하는 알파폴드 데이터베이스에 액세스하고 있다고 한다. 또 일부는 자신의 서버에 알파폴드를 설정하거나 데이터베이스에 없는 단백질 구조 예측을 시도하거나 독자 방법으로 알파폴드를 커스터마이즈는 사용자도 있다고 한다.
많은 생물학자가 알파폴드의 정확성에 감명을 받고 있다. 덴마크 오르후스 대학 연구팀은 실험적 방법으로 입체 구조를 해명했지만 아직 공개되지 않은 단백질에 대해 알파폴드에서 입체 구조를 예측하는 테스트를 실시했다. 그 결과 알파폴드는 정확하게 입체 구조를 예측할 수 있었다고 한다.
또 알파폴드 단백질 유전자 서열로부터 입체 구조를 예측하는 구조를 응용해 단백질 진화와 생명 기원에 대한 연구에 도움이 될 것으로 기대되고 있다. 일반적으로 연구자는 유전자 서열을 비교해 생물 유전자가 종간에 어떻게 관련되어 있는지를 결정하지만 관계가 상당히 오래된 유전자의 경우 서열 변화가 너무 커서 관련성이 보이지 않는 경우도 있다는 것. 하지만 유전자 서열보다 변화하는 속도가 느린 단백질 구조를 비교해 지금까지 간과되어 온 남은 관계성을 발견할 수 있을지도 모른다. 한 전문가는 이는 단백질 진화와 생명 기원을 연구하는 훌륭한 기회를 열어줄 것이라고 밝혔다.
한편 특정 단백질에 대한 자세한 입체 구조를 파악하려는 연구자에게 알파폴드는 즉각적인 해결책이 아니며 궁극적으론 실험적 방법에 의한 결정이 필요하다. 하지만 알파폴드에 의한 입체 구조 예측은 실험적 방법으로 얻은 데이터를 해석할 때 도움이 되는 근사치가 되어 연구 속도를 빠르게 하는 것으로 이어지고 있다고 한다. 한 전문가는 X선 결정 구조 해석 데이터를 알파폴드와 결합해 접근이 바뀌었다며 알파폴드는 연구의 초점을 완전히 바꿨다고 말하기도 했다.
또 알파폴드는 단일 펩티드 사슬 형상을 예측하도록 설계됐지만 알파폴드는 오픈소스화 이후 며칠 만에 한 연구자가 알파폴드가 개 단백질 서열간 상호 작용을 예측할 수 있다고 밝혔고 이후 딥마인드는 단백질 복합체 구조를 예측하는 기능(AlphaFold-Multimer)을 출시했다.
물론 알파폴드도 항상 정확한 입체 구조를 예측할 수 있는 건 아니며 예측에 대한 신뢰도를 라벨링하는 기능도 있다. 알파폴드 한계는 데이터베이스에 등록되어 있는 기존 단백질 정보에 의존하고 있기 때문에 돌연변이 입체 구조에 대한 영향을 예측하는 게 어렵다는 점을 들 수 있다. 또 상호 작용하는 다른 단백질이나 약물 등 분자 존재에 의해 단백질이 어떻게 형상을 변화시키는지 예측도 알파폴드에는 어렵다.
한 전문가는 확실히 알파폴드는 G단백질 공액 수용체라는 단백질 절반에 대해 정확한 예측을 실시해 연구 시간을 절약할 수 있지만 나머지 절반에는 도움이 되지 않는다고 지적한다. 또 라벨링에 의한 신뢰도가 상당히 높았을 경우에도 예측에 실패하는 경우가 있었다고 한다. 창약 연구자는 약물에 결합했을 때 입체 구조를 예측할 수 없는 경우도 있고 알파폴드가 창약 연구에 얼마나 도움이 되는지는 의문이라고 지적하기도 했다.
여전히 알파폴드에는 문제점이 있지만 앞으로도 알파폴드를 이용한 연구가 가속화되고 다양한 발견이 이뤄질 것으로 기대되고 있다. 한 전문가는 알파폴드가 가져온 가장 큰 영향 중 하나는 생물학자에 대한 계산적, 이론적 접근으로부터의 통찰에 변화를 촉구한 것이라고 말했다. 알파폴드에서 영감을 받은 도구가 개별 단백질과 복합체에 머무르지 않고 세포 소기관 전체에서 단백질 분자까지 모델링할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.