마이크로소프트 리서치가 새로운 단백질을 서열 기반으로 생성하는 AI인 에보디프(EvoDiff)를 개발했다.
단백질 입체 구조에 기초한 기존 접근과 달리 단백질 아미노산 서열에 초점을 맞추면 단백질 공학에 큰 진전을 가져올 수 있다. 단백질은 체내 다양한 세포 과정에 관여하는 분자다. 예를 들어 헤모글로빈은 혈액에서 산소를 운반하고 인슐린은 혈당치를 조절한다. 다양한 질병 메커니즘에 단백질이 관여하고 있으며 치료에도 단백질이 사용되는 경우가 많아 유용한 단백질을 새롭게 만드는 건 의료 연구에서 중요하다.
단백질은 또 생물체 내에서의 활동 뿐 아니라 촉매 작용이나 화학 물질을 제조하기 위한 효소 등 산업적 용도에도 이용된다. 특정 기능을 가진 단백질을 생성하는 능력을 높여 플라스틱 쓰레기를 분해하는 효소, 광합성을 더 효율적으로 하는 효소 등을 만들어 다양한 사회적 문제에 대처할 수 있는 것.
마이크로소프트 리서치 연구팀은 새로운 단백질을 생성하는 AI인 에보디프를 개발했다. 이전부터 AI로 단백질을 생성하는 접근법은 있었다. 하지만 먼저 신체에서 특정 작업을 수행할 수 있는 단백질 입체 구조를 고려한 다음 이 입체 구조 단백질 아미노산 서열을 찾는 전통적인 접근 방식은 컴퓨팅과 인적 자원 모두에서 비용이 많이 든다는 문제가 있었다.
연구팀은 단백질 입체 구조로 시작해 새로운 단백질을 생성하는 게 아니라 단백질 아미노산 서열만을 기반으로 새로운 단백질을 생성하는 접근법을 개발했다. 원래 단백질 입체 구조에 근거한 접근법에선 데이터세트로 사용할 수 있는 입체 구조 수에 한계가 있어 학습 데이터 범위가 크게 제한되는 문제가 있었다. 연구팀은 아미노산 서열에 초점을 맞춰 대규모 진화적 데이터세트를 얻고 AI를 학습시킬 수 있었다고 한다.
연구팀은 에보디프가 단백질 공학 능력을 구조-기능적 패러다임을 넘어 프로그래밍 가능한 배열로 새로운 단백질을 제어 가능한 방식으로 설계하는데 필요한 건 입체 구조가 아니라 오히려 단백질 서열이 중요할 가능성을 입증하고 있다고 밝혔다.
에보디프 프레임워크 핵심은 단백질 아미노산 서열과 기능 정보로 이뤄진 방대한 데이터세트로 학습된 6억 4,000만 파라미터 모델이다. 에보디프는 이미지 생성 AI인 스테이블 디퓨전 등과 같은 확산 모델을 채택해 거의 노이즈로 이뤄진 시작 시점 단백질 배열로부터 노이즈를 서서히 줄이고 단계적으로 단백질 배열에 접근해간다.
기존 입체 구조 기반 접근법에선 3차원 구조가 없는 천연 변성 단백질을 합성할 수 없다는 문제도 있었지만 서열 기반인 에보디프에선 천연 변성 단백질을 생성하는 것도 가능하다. 이런 천연 변성 단백질은 다른 단백질 활성 증가 또는 감소 같은 생물학, 질병 기전에서 중요한 역할을 한다. 또 단백질에 있어 특정 기능이나 구조를 갖는 모티프(motif)를 유지해 주위를 보완하는 형태로 새로운 단백질을 만들어낼 수도 있다고 한다.
연구팀은 에보디프에 의해 생성된 단백질 아미노산 서열은 자연계에 존재하는 단백질의 구조적, 기능적, 서열 공간적 특징 전체상을 커버하고 있다고 주장한다. 또 앞으로 에보디프가 생성한 단백질을 실험실에서 테스트하고 실제 작동하는지 확인할 예정이다. 에보디프 코드는 깃허브에 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.