Skip to main content
QUICK REVIEW

[논문 리뷰] DeepGS: Deep Representation Learning of Graphs and Sequences for Drug-Target Binding Affinity Prediction

Xuan Lin|arXiv (Cornell University)|2020. 03. 31.
Computational Drug Discovery Methods참고 문헌 34인용 수 32
한 줄 요약

DeepGS는 약물의 로컬 화학 맥락과 분자 토폴로지, 그리고 단백질 서열까지 함께 모델링하여 3D 구조를 필요로 하지 않고 약물-표적 결합 친화도(DTA)를 예측하며, 여러 베이스라인보다 성능이 우수하다.

ABSTRACT

Accurately predicting drug-target binding affinity (DTA) in silico is a key task in drug discovery. Most of the conventional DTA prediction methods are simulation-based, which rely heavily on domain knowledge or the assumption of having the 3D structure of the targets, which are often difficult to obtain. Meanwhile, traditional machine learning-based methods apply various features and descriptors, and simply depend on the similarities between drug-target pairs. Recently, with the increasing amount of affinity data available and the success of deep representation learning models on various domains, deep learning techniques have been applied to DTA prediction. However, these methods consider either label/one-hot encodings or the topological structure of molecules, without considering the local chemical context of amino acids and SMILES sequences. Motivated by this, we propose a novel end-to-end learning framework, called DeepGS, which uses deep neural networks to extract the local chemical context from amino acids and SMILES sequences, as well as the molecular structure from the drugs. To assist the operations on the symbolic data, we propose to use advanced embedding techniques (i.e., Smi2Vec and Prot2Vec) to encode the amino acids and SMILES sequences to a distributed representation. Meanwhile, we suggest a new molecular structure modeling approach that works well under our framework. We have conducted extensive experiments to compare our proposed method with state-of-the-art models including KronRLS, SimBoost, DeepDTA and DeepCPI. Extensive experimental results demonstrate the superiorities and competitiveness of DeepGS.

연구 동기 및 목표

  • 3D 구조나 광범위한 도메인 지식에 의존하지 않고 정확한 인실리코 DTA 예측을 가능하게 한다.
  • 약물의 로컬 화학 맥락과 토폴로지 정보를 표적의 서열과 함께 결합하는 엔드투엔드 프레임워크를 제안한다.
  • SMILES와 아미노산 서열에 대한 새로운 임베딩 기반 표현(Smi2Vec 및 Prot2Vec)을 개발한다.
  • 표적에는 CNN을, 약물 토폴로지에는 GAT를, 로컬 약물 맥락에는 BiGRU를 통합하여 결합 친화도를 예측한다.

제안 방법

  • Smi2Vec를 사용하여 SMILES 시퀀스를 인코딩해 분산 원자 표현을 얻는다.
  • SMILES 임베딩 행렬 위의 BiGRU를 사용해 약물의 로컬 화학 맥락을 모델링한다.
  • r-반지름 서브그래프 위의 Graph Attention Network(GAT)로 약물 토폴로지를 표현하고 이를 분자 벡터로 집계한다.
  • Prot2Vec로 표적 단백질 서열을 인코딩하고 이를 CNN으로 처리하여 로컬 맥락을 포착한다.
  • 약물과 표적 표현을 연결한 뒤 다층 완전 연결 네트워크로 결합 친화도를 예측한다.
  • 약물–표적 쌍에 대해 평균 제곱 오차(MSE) 손실로 최적화한다.

실험 결과

연구 질문

  • RQ1로컬 화학 맥락과 토폴로지 구조를 함께 모델링하는 것이 하나의 정보 유형만을 사용하는 방법보다 DTA 예측을 향상시킬 수 있는가?
  • RQ2임베딩 기반 표현(Smi2Vec/Prot2Vec)이 SMILES 및 아미노산 서열의 기능적 맥락 포착을 DTA에 대해 개선하는가?
  • RQ3표준 DTA 벤치마크(Davis 및 KIBA)에서 여러 평가 지표에 대해 DeepGS의 성능이 최신 기준선에 비해 어떤가?

주요 결과

  • DeepGS는 Davis 데이터셋에서 CI, MSE, r_m^2, AUPR 전 부문에서 KronRLS, SimBoost, DeepCPI, DeepDTA를 능가한다.
  • KIBA 데이터셋에서 DeepGS는 CI는 경쟁적이고 MSE, r_m^2, AUPR는 기준선에 비해 우수하다.
  • 애블레이션 연구에서 로컬 화학 맥락(Smi2Vec/Prot2Vec)을 제거하면 성능이 저하되는 것을 보여주며 맥락 임베딩의 중요성을 입증한다.
  • 실험 결과는 로컬 맥락과 토폴로지 약물 정보를 모두 포함시키는 것이 데이터 세트 전반에 걸쳐 일관된 성능 향상을 가져온다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.