MIT와 Tufts 대학의 연구원들이 기존의 약물 발견 방식을 가속화할 수 있는 새로운 계산 모델을 개발했습니다. 이 모델은 ‘ConPLex’라고 불리며, 큰 언어 모델을 기반으로 하여 단백질과 잠재적 약물 분자 간의 상호작용을 예측합니다. 이 방법을 통해 연구원들은 하루에 1억 개 이상의 화합물을 스크리닝할 수 있으며, 이는 기존 모델보다 훨씬 많은 양입니다.
이 모델은 각 아미노산 서열의 의미 있는 수치적 표현을 만들어 내며, 이를 통해 단백질의 구조를 계산하지 않고도 약물 분자가 결합할 가능성이 있는지 예측할 수 있습니다. 또한, 이 모델은 단백질 구조의 유연성을 고려하여, 약물 분자와 상호작용할 때 약간의 변형이 가능하다는 점도 반영합니다.
연구팀은 약 4,700개의 후보 약물 분자를 스크리닝하여 51개의 효소와의 결합 능력을 평가했습니다. 이 중 상위 결과로 선정된 19개의 약물-단백질 쌍에 대해 실험적 검증을 수행했고, 그 결과 12개가 강한 결합 친화도를 보였습니다.
이 연구는 약물 발견의 실패율을 줄이고 비용을 낮추는 데 도움이 될 것으로 보입니다. 연구는 미국 국립보건원(NIH), 미국 국립과학재단(NSF), 그리고 필립 및 수잔 라곤 재단의 지원을 받았습니다. <사이트>
ConPLex 모델의 주요 특징은 구조적 예측이 아닌, 서열 기반 예측을 통해 대규모 화합물 라이브러리를 빠르게 스크리닝할 수 있다는 점입니다. ConPLex는 단백질의 원자 구조를 직접 계산하는 대신, 수치적 표현을 사용하여 상호작용을 예측함으로써 계산 시간을 대폭 줄입니다. 또한, 대조 학습(contrastive learning)을 적용하여 실제 약물과 유사하지만 효과가 없는 디코이(가짜 약물)를 구별할 수 있는 능력을 향상시켰습니다.
논문에서는 이 모델을 사용하여 약 4,700개의 후보 약물 분자를 스크리닝하고, 이 중 상위 결과로부터 선택된 19개의 약물-단백질 쌍에 대한 실험적 검증을 수행했습니다. 그 결과, 12개의 쌍에서 강한 결합 친화도를 확인하였으며, 이 중 4개는 특히 높은 결합 친화도를 보여주었습니다.
‘ConPLex’는 대규모 언어 모델을 활용하여 단백질과 약물 분자 간의 상호작용을 예측하는 새로운 계산 모델입니다. 이 모델은 MIT와 Tufts 대학의 연구원들에 의해 개발되었으며, 주요 목적은 약물 발견 과정을 가속화하는 것입니다. 여기에는 몇 가지 중요한 기능과 혁신이 포함되어 있습니다.
기능 및 혁신
언어 모델 기반 예측: ConPLex는 기존의 약물 발견 접근법에서 벗어나 대규모 언어 모델을 활용합니다. 이 모델은 텍스트 처리에서처럼 단백질 서열의 아미노산들이 어떻게 함께 나타날지 예측합니다. 이는 단백질의 3차원 구조를 직접 계산하는 대신, 서열과 구조 간의 상관관계를 수치적으로 표현하여 처리 속도를 높입니다.
수치적 표현 사용: 단백질과 약물의 아미노산 서열을 수치적 데이터로 변환하고, 이 정보를 신경망을 통해 공통의 표현 공간으로 변환하여 상호작용을 예측합니다. 이 과정은 단백질의 원자적 표현을 건너뛰고, 수치적 정보만을 이용해 약물이 결합할 가능성을 예측합니다.
유연성 고려: 단백질 구조의 유연성을 고려하여, 단백질이 약물과 상호작용할 때 약간 다른 형태를 취할 수 있다는 점을 모델링합니다. 이는 약물이 단백질에 더 정확하게 결합할 수 있도록 합니다.
대규모 스크리닝 가능: ConPLex를 사용하면 하루에 1억 개 이상의 화합물을 스크리닝할 수 있습니다. 이는 기존 모델에 비해 획기적으로 많은 양이며, 빠른 시간 안에 대규모 데이터 세트를 처리할 수 있습니다.
대조 학습을 통한 훈련: 실제 약물과 유사한 구조를 가진 ‘가짜’ 약물(디코이)을 구분할 수 있도록, 모델은 대조 학습 방법을 사용하여 훈련됩니다. 이는 모델이 효과적인 약물과 비효과적인 약물을 더 정확하게 구분하도록 돕습니다.
응용 및 임팩트
ConPLex 모델은 약물 발견의 효율성을 크게 향상시키며, 이는 잠재적으로 개발 비용을 줄이고, 약물의 실패율을 낮추는 데 기여할 수 있습니다. 또한, 이 기술은 향후 약물의 독성 스크리닝과 같은 다른 응용 분야로 확장될 가능성이 있습니다. 이 모델은 연구원들에게 오픈 소스로 제공되어, 전 세계 다양한 연구에서 활용될 수 있습니다.
<이하 광고>