[論文レビュー] DeepGS: Deep Representation Learning of Graphs and Sequences for Drug-Target Binding Affinity Prediction
DeepGS は薬物の局所的な化学コンテキストと分子トポロジー、さらにタンパク質配列を同時にモデル化し、3D 構造を必要とせずに薬物-標的結合親和性を予測します。いくつかのベースラインより優れた性能を示します。
Accurately predicting drug-target binding affinity (DTA) in silico is a key task in drug discovery. Most of the conventional DTA prediction methods are simulation-based, which rely heavily on domain knowledge or the assumption of having the 3D structure of the targets, which are often difficult to obtain. Meanwhile, traditional machine learning-based methods apply various features and descriptors, and simply depend on the similarities between drug-target pairs. Recently, with the increasing amount of affinity data available and the success of deep representation learning models on various domains, deep learning techniques have been applied to DTA prediction. However, these methods consider either label/one-hot encodings or the topological structure of molecules, without considering the local chemical context of amino acids and SMILES sequences. Motivated by this, we propose a novel end-to-end learning framework, called DeepGS, which uses deep neural networks to extract the local chemical context from amino acids and SMILES sequences, as well as the molecular structure from the drugs. To assist the operations on the symbolic data, we propose to use advanced embedding techniques (i.e., Smi2Vec and Prot2Vec) to encode the amino acids and SMILES sequences to a distributed representation. Meanwhile, we suggest a new molecular structure modeling approach that works well under our framework. We have conducted extensive experiments to compare our proposed method with state-of-the-art models including KronRLS, SimBoost, DeepDTA and DeepCPI. Extensive experimental results demonstrate the superiorities and competitiveness of DeepGS.
研究の動機と目的
- 3D 構造や広範なドメイン知識に依存せずに正確な in silico DTA 予測を動機付ける。
- 薬物と標的の配列に対して局所的な化学コンテキストとトポロジ情報を組み合わせたエンドツーエンドのフレームワークを提案する。
- SMILES とアミノ酸配列の新規埋め込み表現(Smi2Vec と Prot2Vec)を開発する。
- ターゲットの CNN、薬物トポロジーの GAT、局所薬物コンテキストの BiGRU を統合して結合親和性を予測する。
提案手法
- SMILES 配列を Smi2Vec でエンコードして分散表現を得る。
- 薬物の局所的な化学コンテキストを SMILES 埋め込みの行列上で BiGRU によってモデル化する。
- 薬物のトポロジーを r-半径サブグラフ上の Graph Attention Network (GAT) で表現し、分子ベクトルへ集約する。
- ターゲットタンパク質配列を Prot2Vec でエンコードし、局所コンテキストを捉えるために CNN で処理する。
- 薬物と標的の表現を連結し、多層全結合ネットワークを通じて結合親和性を予測する。
- 薬物-標的ペア間で平均二乗誤差(MSE)損失で最適化する。
実験結果
リサーチクエスチョン
- RQ1局所的な化学コンテキストとトポロジー構造を同時にモデル化することで、単一情報のみを用いた方法と比較して DTA 予測を改善できるか。
- RQ2埋め込みベースの表現(Smi2Vec/Prot2Vec)は SMILES およびアミノ酸配列の機能的コンテキストの捉え方を改善するか。
- RQ3DeepGS は標準的な DTA ベンチマーク(Davis および KIBA)で、複数の評価指標に渡って最新のベースラインと比較してどの程度の性能を示すか。
主な発見
- DeepGS は Davis データセットで KronRLS、SimBoost、DeepCPI、および DeepDTA を CI、MSE、r_m^2、AUPR の全指標で上回る。
- KIBA データセットでは、DeepGS は CI が競合的で、MSE、r_m^2、AUPR がベースラインと比較して優れている。
- アブレーション研究により局所的な化学コンテキスト(Smi2Vec/Prot2Vec)を除くと性能が低下することが示され、コンテキスト埋め込みの重要性が検証された。
- 実験結果は、局所コンテキストとトポロジー情報の両方を組み込むことで、データセットを跨いだ安定した性能向上をもたらすことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。