[論文レビュー] Self-Attention Based Molecule Representation for Predicting Drug-Target Interaction
本論文は、PubChemデータで事前学習され、薬物標的相互作用予測にファインチューニングされた自己注意機構ベースの分子表現 MT-DTI を提案し、KibaおよびDavisのベンチマークで最先端の結果を達成するとともに、EGFRの実用的な薬剤候補ランキングを実証します。
Predicting drug-target interactions (DTI) is an essential part of the drug discovery process, which is an expensive process in terms of time and cost. Therefore, reducing DTI cost could lead to reduced healthcare costs for a patient. In addition, a precisely learned molecule representation in a DTI model could contribute to developing personalized medicine, which will help many patient cohorts. In this paper, we propose a new molecule representation based on the self-attention mechanism, and a new DTI model using our molecule representation. The experiments show that our DTI model outperforms the state of the art by up to 4.9% points in terms of area under the precision-recall curve. Moreover, a study using the DrugBank database proves that our model effectively lists all known drugs targeting a specific cancer biomarker in the top-30 candidate list.
研究の動機と目的
- 薬物-標的相互作用(DTI)予測コストを削減して創薬を加速し、個別化医療を実現する動機づけ。
- SMILES系列における長距離原子間関係を捉える自己注意を用いた新しい分子表現の提案。
- 大規模なPubChemコーパス上で分子表現を事前学習し、ファインチューニングを通じてDTIモデルへ転移させる。
- アフィニティ予測のために、Molecule Transformers、Protein CNNs、Interaction Densesを組み合わせた MT-DTI アーキテクチャを開発。
- 公開DTIベンチマークでMT-DTIを評価し、DrugBankを用いて実践的な薬剤ランキング能力を実証。
提案手法
- SMILES系列の自己注意を用いたTransformerエンコーダに基づくMolecule Transformers (MT)を開発し、トークン埋め込みと位置埋め込み、固定長分子表現のための[REP]トークンを含む。
- 97百万のPubChem分子を対象にマスク化言語モデルの目的でMTを事前学習。
- DTI用に、M_repとProtein CNN由来のP_repを結合し、Interaction Densesを通して親和性を予測するよう MTをファインチューニング。
- Protein CNNを用いてFASTA配列を固定長のタンパク質埋め込みに変換。
- 回帰指標(MSE、Concordance Index、r_m^2)とAUPRを用いて評価し、一部の分析では二値解釈の閾値付きラベルを使用。
実験結果
リサーチクエスチョン
- RQ1自己注意ベースの分子表現はCNNベースのアプローチを超えるDTI予測を改善できるか?
- RQ2大規模な公開化合物コーパスで分子表現を事前学習することは、ファインチューニングを通じて下流のDTI性能を向上させるか?
- RQ3標準ベンチマークにおけるMT-DTIの既存の類似性ベースおよび深層学習DTIモデルとの比較はどうか?
- RQ4標的タンパク質に対する既知薬を効果的にランキングする能力があるか(生物学的ケーススタディ)?
- RQ5ファインチューニングと、ファインチューニングなしの事前学習表現を使用する場合の影響はどうなるか?
主な発見
| Method | CI (std) | MSE | r_m^2 (std) | AUPR (std) |
|---|---|---|---|---|
| Kiba/KronRLS | 0.782 (0.001) | 0.411 | 0.342 (0.001) | 0.635 (0.004) |
| Kiba/SimBoost | 0.836 (0.001) | 0.222 | 0.629 (0.007) | 0.760 (0.003) |
| Kiba/DeepDTA | 0.863 (0.002) | 0.194 | 0.673 (0.009) | 0.788 (0.004) |
| Kiba/MT-DTI w/oFT | 0.844 (0.001) | 0.220 | 0.584 (0.002) | 0.789 (0.004) |
| Kiba/MT-DTI | 0.882 (0.001) | 0.152 | 0.738 (0.006) | 0.837 (0.003) |
| Davis/KronRLS | 0.871 (0.001) | 0.379 | 0.407 (0.005) | 0.661 (0.010) |
| Davis/SimBoost | 0.872 (0.002) | 0.282 | 0.644 (0.006) | 0.709 (0.008) |
| Davis/DeepDTA | 0.878 (0.004) | 0.261 | 0.630 (0.017) | 0.714 (0.010) |
| Davis/MT-DTI w/oFT | 0.875 (0.001) | 0.268 | 0.633 (0.013) | 0.700 (0.011) |
| Davis/MT-DTI | 0.887 (0.003) | 0.245 | 0.665 (0.014) | 0.730 (0.014) |
- MT-DTIは、KibaとDavisのベンチマークの全指標において基準法を上回った。
- Kibaでは、MT-DTIは比較対象手法の中で最良のCI、MSE、r_m^2、AUPRを達成。
- DavisでもMT-DTIは再び最高のCI、MSE、r_m^2、AUPRを達成。
- ファインチューニングなしの事前学習済みMT(MT-DTI w/oFT)は、すでにいくつかのベースラインを上回っており、事前学習による有用な化学構造知識を示している。
- DrugBankを用いたケーススタディは、予測候補の中で既知のEGFR標的薬のトップ30エンリッチメントを示す。
- モデルはより大規模な訓練データから利益を得ており、データが増えると安定した性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。