[논문 리뷰] Atomic Convolutional Networks for Predicting Protein-Ligand Binding Affinity
이 논문은 Atomic Convolutional Neural Networks (ACNNs)를 3D 좌표로부터 단백질-리간드 결합 친화도를 직접 예측하고, 원자 간 상호작용을 엔드투엔드로 학습하며 PDBBind 데이터셋에서 구조 기반 기준선과 경쟁력 있게 수행한다.
Empirical scoring functions based on either molecular force fields or cheminformatics descriptors are widely used, in conjunction with molecular docking, during the early stages of drug discovery to predict potency and binding affinity of a drug-like molecule to a given target. These models require expert-level knowledge of physical chemistry and biology to be encoded as hand-tuned parameters or features rather than allowing the underlying model to select features in a data-driven procedure. Here, we develop a general 3-dimensional spatial convolution operation for learning atomic-level chemical interactions directly from atomic coordinates and demonstrate its application to structure-based bioactivity prediction. The atomic convolutional neural network is trained to predict the experimentally determined binding affinity of a protein-ligand complex by direct calculation of the energy associated with the complex, protein, and ligand given the crystal structure of the binding pose. Non-covalent interactions present in the complex that are absent in the protein-ligand sub-structures are identified and the model learns the interaction strength associated with these features. We test our model by predicting the binding free energy of a subset of protein-ligand complexes found in the PDBBind dataset and compare with state-of-the-art cheminformatics and machine learning-based approaches. We find that all methods achieve experimental accuracy and that atomic convolutional networks either outperform or perform competitively with the cheminformatics based methods. Unlike all previous protein-ligand prediction systems, atomic convolutional networks are end-to-end and fully-differentiable. They represent a new data-driven, physics-based deep learning model paradigm that offers a strong foundation for future improvements in structure-based bioactivity prediction.
연구 동기 및 목표
- 단백질-리간드 복합체에서 원자 상호작용을 모델링하기 위한 학습 가능한 엔드투엔드 3D 컨볼루션 프레임워크를 개발한다.
- 손으로 조정된 기술자(descriptors) 없이 원자 좌표에서 직접 특징을 학습할 수 있도록 모델을 가능하게 한다.
- 학습 목표에 열역학적 결합 주기를 통합하여 결합 자유에너지를 예측한다.
- PDBBind core 및 refined 세트를 대상으로 ACNN을 구조 기반 및 리간드 기반 기준선과 비교 평가한다.
제안 방법
- 근처 리스트를 기반으로 한 거리 행렬을 정의하여 컷오프(12 Å)까지의 국소 원자 환경을 표현한다.
- 1x1 컨볼루션을 사용하여 이웃 거리 행렬에 대해 원자 종류별 특징을 확장하는 원자 타입 컨볼루션을 적용한다.
- 반경 풀링을 사용해 이웃 원자들 간의 상호작용을 다운샘플하고 집계하여 원자별 특징 벡터를 생성한다.
- 원자별 출력을 평탄화(flatten)하고 공유된 atomistic fully connected 네트워크에 입력해 원자별 에너지를 산출한다.
- 원자별 에너지를 합산해 총 분자 에너지를 얻고, 크기 확장성과 치환불변성을 보장한다.
- 세 개의 가중치 공유 복제 네트워크(complex, protein, ligand)를 학습시키고 손실을 열역학적 주기 Delta G_complex = G_complex - G_protein - G_ligand에 대해 실험적 결합 데이터(Delta G)로 최적화한다.
- 기준선 비교에는 GRID (GRID-RF, GRID-NN), GCNN, ECFP 기반 모델이 포함되어 성능을 맥락화한다.
실험 결과
연구 질문
- RQ1엔드투엔드 3D 신경망이 결정구조에서 결합 친화도와 관련된 원자 상호작용을 얼마나 잘 학습할 수 있는가?
- RQ2열역학적 결합 주기를 도입하는 것이 단백질-리간드 결합 자유 에너지 예측 정확도에 도움이 되나?
- RQ3ACNN은 PDBBind에서 구조 기반 및 리간드 기반 기준선과 비교했을 때 다양한 데이터 분할(random, stratified, scaffold, temporal)에서 어떤 차이를 보이는가?
- RQ4비교적 작은 데이터세트에서 학습하고 더 크거나 다른 화학종에 적용할 때 ACNN의 일반화 및 과적합 특성은 어떠한가?
주요 결과
- ACNN 모델은 core 데이터의 테스트 세트에서 평균 절대 오차가 1 kcal/mol 미만으로 화학적 정확도 가능성을 시사한다.
- ACNN은 core 데이터의 여러 학습/테스트 분할에서 GRID-RF와 비교우위 혹은 경쟁력을 보이며, 엔드투엔드 모델은 비교적 잘 일반화한다.
- 정제된 데이터셋에서 ACNN의 성능은 GRID 모델과 비슷하며 드롭아웃으로 일반화가 향상된다.
- 리간드 기반 기준선(GCNN, ECFP-RF/NN)은 단백질 구조 특징의 부재로 구조 기반 방법보다 일반화가 잘 되지 않는다.
- ACNN은 강력한 가능성을 보이나 core 세트에서 과적합 신호를 보이며 더 많은 데이터나 정규화가 필요함; 더 크고 높은 품질 데이터셋에서의 전체 학습은 여전히 도전적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.