구글 검색이나 채팅 AI 챗GPT 등에선 인간이 쓴 문장을 기계적으로 처리하기 위해 자연어 처리 알고리즘이 사용되고 있다. 이런 자연 언어 처리 알고리즘이 창약 분야에서도 활약하고 있다고 한다.
해열제나 두통약 등 약품에는 각종 증상에 영향을 주는 단백질이 포함되어 있어 새로운 약품을 개발하려면 목적 증상에 유효한 단백질 구조를 도출할 필요가 있다. 하지만 기존 방법으로 단백질 구조를 도출하려면 몇 년이라는 시간이 필요하다. 단백질은 아미노산이 늘어선 구조를 갖고 있으며 단백질 구조를 도출하는 건 아미노산 서열을 도출하는 것과 동의어다. 각 아미노산은 알라닌은 A, 아르기닌은 R, 아스파라긴은 N처럼 알파벳 1문자로 표기하는 게 가능하며 이 3개와 아미노산이 늘어선 경우는 ARN으로 나타낼 수 있다. 이 때문에 아미노산 서열을 자연언어로 봐서 자연언어 처리 알고리즘을 적용하는 게 가능하다는 것. 자연언어 처리 알고리즘을 아미노산 배열에 맞춰 학습해 특정 증상에 유효한 서열을 문법으로 파악해 신약에 이용할 수 있는 아미노산 서열을 몇 개월 만에 도출할 수 있게 된다.
이미 자연언어 처리 알고리즘을 창약 분야에서 활용하려는 움직임은 전 세계적으로 진행되고 있으며 지금까지 유효한 약이 개발되지 않았던 질병 치료약 개발에 기대를 받고 있다. 앱사이(Absci) 측은 자연언어 처리 알고리즘 활용으로 지금까지 유효한 약품이 존재하지 않던 분야 연구가 진행될 것이라고 밝히고 있다.
이렇게 자연언어 처리 알고리즘에 의해 창약 고속화가 진행되고 있지만 동시에 기존 약품과 멀리 떨어진 구조 약품을 개발하면 의도하지 않은 부작용이 발생할 가능성이 높아지는 문제도 있다. 이 때문에 현재 기존 약품 구조를 미세 조정해 유효성을 높이는 용도 활용이 우선적으로 연구되고 있다고 한다. 앱사이가 지난 8월 발표한 논문에선 자연언어 처리 알고리즘을 이용해 항암제 트라스투주맙 구조에 조정을 가해 단백질과 암세포 결합을 강화하는데 성공했다. 관련 내용은 이곳에서 확인할 수 있다.