QUICK REVIEW

[논문 리뷰] Latent Molecular Optimization for Targeted Therapeutic Design

Tristan Aumentado‐Armstrong|arXiv (Cornell University)|2018. 09. 05.

Computational Drug Discovery Methods참고 문헌 50인용 수 38

한 줄 요약

이 논문은 그래프 신경망과 변분 자동차원분석기(Variational Autoencoder)를 사용하여 단백질 결합 부위와 리간드를 연속적인 벡터 공간에 임bedding하는 잠재 분자 최적화 프레임워크를 제안한다. 이는 고결합 친화도를 가진 약물 유사 분자를 위한 기울기 기반 최적화를 가능하게 한다. 제안된 방법은 무작위 리간드 대비 유의미하게 향상된 결합 친화도 예측 성능을 보이며, 도킹 검증에서 92.9%의 최적화된 리간드가 무작위 대비 우월한 성능을 보였다.

ABSTRACT

We devise an approach for targeted molecular design, a problem of interest in computational drug discovery: given a target protein site, we wish to generate a chemical with both high binding affinity to the target and satisfactory pharmacological properties. This problem is made difficult by the enormity and discreteness of the space of potential therapeutics, as well as the graph-structured nature of biomolecular surface sites. Using a dataset of protein-ligand complexes, we surmount these issues by extracting a signature of the target site with a graph convolutional network and by encoding the discrete chemical into a continuous latent vector space. The latter embedding permits gradient-based optimization in molecular space, which we perform using learned differentiable models of binding affinity and other pharmacological properties. We show that our approach is able to efficiently optimize these multiple objectives and discover new molecules with potentially useful binding properties, validated via docking methods.

연구 동기 및 목표

표적 약물 설계에서 특정 단백질 표적에 높은 결합 친화도를 가지며 약리학적 특성이 우수한 분자를 생성하는 데 목적이 있다.
기존 접근 방식에서의 이산적인 화학 공간과 비가역적인 점수 함수의 한계를 극복하기 위해, 학습된 잠재 공간에서 연속적이고 기울기 기반 최적화를 가능하게 한다.
각 신규 표적에 대해 광범위한 생화학적 데이터를 요구하지 않고 기존 단백질-리간드 복합체 데이터로부터 일반화하여, 단백질 결합 부위의 이식 가능한 표현을 활용한다.
결합 친화도 및 내재된 분자 특성(예: 약물 유사성, 독성)에 대한 미분 가능 모델을 학습하여 신규 분자 설계의 효율성과 효과를 향상시킨다.
시뮬레이션 도킹을 통해 방법을 검증하여, 최적화된 분자가 예측된 결합 친화도에서 무작위 리간드보다 뛰어난 성능을 보임을 입증한다.

제안 방법

그래프 컬러네이션 네트워크(GCN)는 3차원 단백질 결합 부위를 잔여기 및 원자로 구성된 그래프로 간주하여 벡터 서명 P로 인코딩한다.
점결합 트리 변분 자동차원분석기(JTVAE)는 리간드의 SMILES 문자열을 연속적인 잠재 벡터 C로 임베딩하여 분자 구조의 미분 가능 조작을 가능하게 한다.
세 가지 미분 가능한 신경망을 학습한다: 직접 매핑기(P → C), 결합 친화도 추정기(C, P → B), 성질 회귀기(C → 약물 유사성, 독성, 합성 용이성).
학습된 모델을 기반으로, 표적 부위 임베딩 P와 다목적 손실 함수를 기반으로 잠재 화학 공간(C)에서 기울기 기반 최적화를 수행한다.
최적화 과정은 예측된 친화도 및 약리학적 점수에서 기울기를 역전파하여 잠재 벡터 C를 정교화함으로써 새로운 분자를 생성한다.
rDock를 사용한 도킹 시뮬레이션을 통해 최적화된 리간드가 JTVAE 사전에서 유도된 무작위 샘플과 비교하여 예측된 결합 친화도를 검증한다.

실험 결과

연구 질문

RQ1단백질 결합 부위와 리간드의 잠재 공간 표현이 표적 분자 설계를 위한 효과적인 기울기 기반 최적화를 가능하게 하는가?
RQ2결합 친화도 및 약리학적 특성에 대한 미분 가능한 모델이 효과적으로 학습되어 연속적인 잠재 공간에서 분자 최적화를 이끄는 데 사용될 수 있는가?
RQ3기존 단백질-리간드 복합체 데이터로부터의 지식을 활용함으로써, 광범위한 표적 특화 데이터 없이도 다양한 단백질 표적으로 일반화 가능한가?
RQ4도킹 시뮬레이션을 통해 검증된 바, 최적화된 분자가 무작위 리간드보다 유의미하게 높은 예측된 결합 친화도를 가지는가?
RQ5어느 정도의 수준에서 이 방법은 유리한 약물 유사성 특성을 유지하면서 결합 친화도를 향상시키는가?

주요 결과

961개의 테스트 케이스 중 631개(65.7%)에서 최적화된 리간드가 무작위 대비 더 낮은 DSX 점수를 기록하여 더 강한 결합을 예측함을 보였다.
DSX < -100(강한 결합을 의미)인 도킹 복합체 중에서, 최적화된 리간드 477개 중 443개가 무작위 대비 뛰어난 성능을 보였으며, 이는 이 고친화도 하위 집합에서 92.9%의 성공률을 의미한다.
모든 케이스에서 무작위와 최적화된 리간드 간의 DSX 점수 차이(Δ) 중앙값은 14.5였고, 평균은 9.3, 표준편차는 51.5였다.
고친화도 하위 집합(DSX < -100)에서는 중앙값 Δ가 35.4, 평균이 36.4, 표준편차가 26.3였으며, 이는 결합 예측에서의 상당하고 일관된 향상을 나타낸다.
최적화된 분자는 무작위 분자보다 알려진 결합체와 정성적으로 더 유사한 구조를 가지며, 더 높은 구조적 관련성을 갖는 것으로 나타났다.
최적화 과정에서 도킹을 직접 사용하지 않고, 미분 가능한 점수 함수를 학습함으로써 효율적인 엔드 투 엔드 학습과 최적화를 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.