QUICK REVIEW

[논문 리뷰] Self-Attention Based Molecule Representation for Predicting Drug-Target Interaction

Bonggun Shin, Sung Soo Park|arXiv (Cornell University)|2019. 08. 15.

Computational Drug Discovery Methods인용 수 66

한 줄 요약

논문은 MT-DTI를 소개하는데, 이는 사전 학습된 Molecule Transformer(자기 주의 메커니즘)으로 분자 표현을 하고 CNN 기반 단백질 인코딩을 사용하는 약물-표적 상호작용 모델로, PubChem 데이터에서의 전이 학습을 통해 Kiba와 Davis 벤치마크에서 최첨단(SOTA) 결과를 달성한다.

ABSTRACT

Predicting drug-target interactions (DTI) is an essential part of the drug discovery process, which is an expensive process in terms of time and cost. Therefore, reducing DTI cost could lead to reduced healthcare costs for a patient. In addition, a precisely learned molecule representation in a DTI model could contribute to developing personalized medicine, which will help many patient cohorts. In this paper, we propose a new molecule representation based on the self-attention mechanism, and a new DTI model using our molecule representation. The experiments show that our DTI model outperforms the state of the art by up to 4.9% points in terms of area under the precision-recall curve. Moreover, a study using the DrugBank database proves that our model effectively lists all known drugs targeting a specific cancer biomarker in the top-30 candidate list.

연구 동기 및 목표

약물-표적 상호작용(DTI) 예측에서 비용을 줄이고 정확성을 높여 약물 발견과 개인화 의학을 돕는 것을 동기로 삼는다.
큰 PubChem 데이터에서 사전 학습된 자기 주의 기반 분자 표현을 제안한다.
Molecule Transformer를 단백질 CNN 및 상호작용 Dense 계층과 통합하여 결합 친화도 예측.
Kiba 및 Davis DTI 벤치마크에서 최첨단 성능을 보여주고 EGFR에 대한 실제 약물 후보 순위를 설명한다.
화학 구조 지식에서 DTI 예측으로의 전이 학습을 탐구한다.

제안 방법

MT-DTI 아키텍처 소개: SMILES 기반 Molecule Transformers와 FASTA 기반 Protein CNN이 상호작용 Dense 예측기로 피드된다.
97백만 개의 PubChem 분자에 대해 마스킹 언어 모델 태스크로 Molecule Transformers를 사전 학습; [REP] 토큰을 고정 길이 분자 표현으로 사용.
단백질은 임베딩과 다층 CNN으로 인코딩하고 최대 풀링으로 고정 길이의 단백질 표현을 생성.
M_rep와 P_rep를 연결하고 세 개의 Dense 계층과 드롭아웃을 통해 연속 친화도 점수를 예측.
사전 학습된 Molecule Transformer를 MT-DTI 내에서 DTI 데이터셋(Kiba와 Davis)에서 미세 조정.
MSE, CI, r_m^2, AUPR을 사용하여 KronRLS, SimBoost, DeepDTA Baselines와 비교 평가.

실험 결과

연구 질문

RQ1자기 주의 기반 분자 표현이 CNN 기반 인코더보다 DTI 작업에서 더 풍부한 화학 구조 정보를 학습할 수 있는가?
RQ2PubChem에서 분자 인코더를 사전 학습하면 작은 DTI 데이터셋에서 미세 조정 시 DTI 예측이 향상되는가?
RQ3MT-DTI가 Kiba와 Davis 벤치마크에서 다중 메트릭으로 기존의 최첨단 DTI 방법과 어떻게 비교되는가?
RQ4EGFR 같은 특정 표적에 대한 알려진 약물 후보를 사례 연구에서 모델이 효과적으로 식별하는가?

주요 결과

MT-DTI가 CI, MSE, r_m^2, AUPR에서 모든 벤치마크를 능가한다.
MT-DTI가 Kiba에서 CI 0.882와 AUPR 0.837, Davis에서 CI 0.887와 AUPR 0.730으로 완전 학습(MT-DTI) 시 달성.
MT-DTI가 FT 없이도 이미 일부 벤치마크와 경쟁력 있어, 사전 학습으로 유용한 화학 구조 학습이 가능함을 시사.
PubChem의 9700만 분자 사전 학습 후 미세 조정이 두 개의 공개 DTI 벤치에서 최첨단 결과를 얻음.
DrugBank를 이용한 사례 연구에서 EGFR 표적 약물이 상위 30개 예측에 나타나 실용적인 후보 순위 가능성을 보여줌.
모델은 더 큰 학습 세트에서 강건성과 성능 향상을 보여 CI 및 AUPR의 표준 편차가 더 낮아짐.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.