QUICK REVIEW

[논문 리뷰] Self-Attention Based Molecule Representation for Predicting Drug-Target Interaction

Bonggun Shin, Sung Soo Park|arXiv (Cornell University)|2019. 08. 15.

Computational Drug Discovery Methods인용 수 54

한 줄 요약

논문은 MT-DTI를 소개한다. MT-DTI는 PubChem 데이터로 사전 학습된 자기-주의 기반 분자 표현(PubChem 데이터에 기반한 자기-주의 분자 표현)을 사용하고, 약물-표적 상호작용 예측을 위해 미세 조정되어 Kiba 및 Davis 벤치마크에서 SOTA를 달성하며 EGFR에 대한 실용적인 약물 후보군 랭킹을 시연한다.

ABSTRACT

Predicting drug-target interactions (DTI) is an essential part of the drug discovery process, which is an expensive process in terms of time and cost. Therefore, reducing DTI cost could lead to reduced healthcare costs for a patient. In addition, a precisely learned molecule representation in a DTI model could contribute to developing personalized medicine, which will help many patient cohorts. In this paper, we propose a new molecule representation based on the self-attention mechanism, and a new DTI model using our molecule representation. The experiments show that our DTI model outperforms the state of the art by up to 4.9% points in terms of area under the precision-recall curve. Moreover, a study using the DrugBank database proves that our model effectively lists all known drugs targeting a specific cancer biomarker in the top-30 candidate list.

연구 동기 및 목표

약물-표적 상호작용(DTI) 예측 비용을 줄여 약물 발견 속도를 높이고 개인화 의학을 가능하게 한다.
SMILES 시퀀스의 장거리 원자 관계를 포착하기 위해 자기-주의를 사용한 새로운 분자 표현을 제안한다.
대규모 PubChem 코퍼스에서 분자 표현을 사전 학습하고 미세 조정을 통해 DTI 모델로 전이한다.
Affinity 예측을 위한 Molecule Transformers, Protein CNNs, 그리고 Interaction Denses를 결합한 MT-DTI 아키텍처를 개발한다.
공개 DTI 벤치마크에서 MT-DTI를 평가하고 DrugBank를 사용한 실용적인 약물 순위화 capabilities를 시연한다.

제안 방법

SMILES 시퀀스에 대해 자기-주의를 사용한 Transformer 인코더를 기반으로 한 Molecule Transformers(MT)를 개발하고, 토큰 및 위치 임베딩과 고정 길이 분자 표현을 위한 [REP] 토큰을 포함한다.
97백만 개의 PubChem 분자에 대해 마스크드 언어 모델 objective로 MT를 사전 학습한다.
MT를 DTI에 대해 미세 조정하기 위해 M_rep와 Protein CNN으로부터 파생된 P_rep를 결합하고 Interaction Denses를 통과시켜 친화도를 예측한다.
단백질 FASTA 시퀀스를 고정 크기의 단백질 임베딩으로 변환하기 위해 Protein CNN을 사용한다.
회귀 지표(MSE, 일치도 지수(concordance index), r_m^2)와 AUPR를 사용해 평가하며, 일부 분석에서 이진 해석을 위한 임계 라벨을 사용한다.

실험 결과

연구 질문

RQ1자체 주의 기반 분자 표현이 CNN 기반 접근법을 넘어서는 DTI 예측 성능을 향상시킬 수 있는가?
RQ2큰 공개 화합물 코퍼스로의 분자 표현 사전 학습이 미세 조정을 통한 다운스트림 DTI 성능 향상을 가져오는가?
RQ3MT-DTI가 표준 벤치마크에서 기존의 유사성 기반 및 딥러닝 DTI 모델과 어떻게 비교되는가?
RQ4모델이 표적 단백질에 대해 알려진 약물을 효과적으로 순위화할 수 있는가(생물학적 사례 연구)?
RQ5미세 조정과 사전 학습 표현 사용의 차이가 미세 조정의 효과에 어떤 영향을 미치는가?

주요 결과

Method	CI (std)	MSE	r_m^2 (std)	AUPR (std)
Kiba/KronRLS	0.782 (0.001)	0.411	0.342 (0.001)	0.635 (0.004)
Kiba/SimBoost	0.836 (0.001)	0.222	0.629 (0.007)	0.760 (0.003)
Kiba/DeepDTA	0.863 (0.002)	0.194	0.673 (0.009)	0.788 (0.004)
Kiba/MT-DTI w/oFT	0.844 (0.001)	0.220	0.584 (0.002)	0.789 (0.004)
Kiba/MT-DTI	0.882 (0.001)	0.152	0.738 (0.006)	0.837 (0.003)
Davis/KronRLS	0.871 (0.001)	0.379	0.407 (0.005)	0.661 (0.010)
Davis/SimBoost	0.872 (0.002)	0.282	0.644 (0.006)	0.709 (0.008)
Davis/DeepDTA	0.878 (0.004)	0.261	0.630 (0.017)	0.714 (0.010)
Davis/MT-DTI w/oFT	0.875 (0.001)	0.268	0.633 (0.013)	0.700 (0.011)
Davis/MT-DTI	0.887 (0.003)	0.245	0.665 (0.014)	0.730 (0.014)

MT-DTI는 보고된 모든 메트릭에서 Kiba와 Davis 벤치마크에서 베이스라인을 능가한다.
Kiba에서 MT-DTI는 비교 방법들 중 최상의 CI, MSE, r_m^2, 그리고 AUPR을 달성한다.
Davis에서 MT-DTI는 다시 최상의 CI, MSE, r_m^2, 그리고 AUPR을 달성한다.
사전 학습된 MT(미세 조정 없이)도 이미 여러 베이스라인을 능가하며, 사전 학습에서 얻은 유용한 화학 구조 지식을 시사한다.
DrugBank를 사용한 사례 연구에서 예측 후보 중 알려진 EGFR 표적 약물의 상위 30개 증가(enrichment)를 시연한다.
모델은 더 큰 학습 데이터에서 이점을 얻어 데이터가 증가할수록 더 안정적인 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.