[論文レビュー] SPLDExtraTrees: Robust machine learning approach for predicting kinase inhibitor resistance
本論文では、自己-paced学習と極端にランダム化された回帰木を組み合わせた頑健な機械学習手法SPLDExtraTreesを提案する。この手法は、単一アミノ酸置換によるキナーゼ阻害薬耐性を予測することを目的としており、学習が容易で多様性のあるサンプルを段階的に取り入れながら、物理的構造的特徴を組み込むことで、分子動力学法やRosetta手法と同等の予測精度を達成しつつ、著しく低い計算コストを実現する。特に、外挿予測や不均衡データの状況において優れた性能を示す。
Drug resistance is a major threat to the global health and a significant concern throughout the clinical treatment of diseases and drug development. The mutation in proteins that is related to drug binding is a common cause for adaptive drug resistance. Therefore, quantitative estimations of how mutations would affect the interaction between a drug and the target protein would be of vital significance for the drug development and the clinical practice. Computational methods that rely on molecular dynamics simulations, Rosetta protocols, as well as machine learning methods have been proven to be capable of predicting ligand affinity changes upon protein mutation. However, the severely limited sample size and heavy noise induced overfitting and generalization issues have impeded wide adoption of machine learning for studying drug resistance. In this paper, we propose a robust machine learning method, termed SPLDExtraTrees, which can accurately predict ligand binding affinity changes upon protein mutation and identify resistance-causing mutations. Especially, the proposed method ranks training data following a specific scheme that starts with easy-to-learn samples and gradually incorporates harder and diverse samples into the training, and then iterates between sample weight recalculations and model updates. In addition, we calculate additional physics-based structural features to provide the machine learning model with the valuable domain knowledge on proteins for this data-limited predictive tasks. The experiments substantiate the capability of the proposed method for predicting kinase inhibitor resistance under three scenarios, and achieves predictive accuracy comparable to that of molecular dynamics and Rosetta methods with much less computational costs.
研究の動機と目的
- 限られたかつノイズの多いトレーニングデータによるタンパク質の変異に起因するリガンド結合親和性の変化を予測する機械学習モデルにおける過学習や一般化性能の欠如という課題に対処すること。
- タンパク質スーパーファミリーの多様性やアミノ酸置換タイプといったドメイン知識を統合することで、データが限られる状況における予測の頑健性と一般化性能を向上させること。
- キナーゼ阻害薬耐性の予測において、分子動力学法やRosettaと同等の高い予測性能を維持しながら、計算コストを大幅に低く抑えた代替手法を開発すること。
- とくにレアまたは未同定の変異に対して、耐性を引き起こす変異を正確に同定できることを可能にすること。
提案手法
- 本手法は、初期段階で学習が容易なサンプル(低い損失)を用いて開始し、段階的に難易度が高く多様性のあるサンプル(異なるタンパク質スーパーファミリーに由来するものも含む)を組み込む自己-paced学習(SPL)戦略を採用する。
- ベース推定器として極端にランダム化された回帰木(ExtraTrees)を用い、各イテレーションで予測損失と多様性に基づいてサンプル重みを動的に再計算する。
- Rosetta REF15スコアリング、FoldX、PLIP、その他のツールを用いて、ドメイン固有の知識を豊かにする物理的構造的特徴を抽出する。
- トレーニングプロセスは、モデルパラメータとサンプル重みを繰り返し更新し、予測精度とサンプルの多様性の両面を重視することで、一般化性能を向上させる。
- 自己-paced学習の目的関数に多様性正則化項を組み込み、異なるタンパク質スーパーファミリーに由来するサンプルを優先することで、モデルの頑健性を向上させる。
- 複数のソース(リガンド性質、変異環境、タンパク質-リガンド相互作用など)からの特徴を対象として、最も情報量の多い特徴(例:146個)を保持するための特徴選択を実施する。
実験結果
リサーチクエスチョン
- RQ1限られたノイズの多いデータにおけるタンパク質変異に起因するリガンド結合親和性の変化を予測する機械学習モデルにおいて、自己-paced学習戦略が一般化性能を向上させ得るか?
- RQ2トレーニング段階でタンパク質スーパーファミリーの多様性を組み込むことで、キナーゼ阻害薬耐性の予測性能とモデルの頑健性にどのような影響を与えるか?
- RQ3このデータ制限下の状況において、物理的構造的特徴を統合することで、機械学習モデルの予測精度がどの程度向上するか?
- RQ4分子動力学法やRosettaといったゴールドスタンダード手法と比較して、SPLDExtraTreesの予測精度と計算効率はどの程度か?
- RQ5トレーニングデータにターゲットのキナーゼスーパーファミリーが含まれない外挿予測シナリオにおいて、モデルが耐性を引き起こす変異を効果的に同定できるか?
主な発見
- SPLDExtraTreesは外挿シナリオでAUC 0.867を達成し、分子動力学法(A99)とRosetta(REF15)を10%以上上回った。
- 外挿ケースでは、分子動力学法に対して14%、Rosettaに対して13%のAUC向上を示した。
- 精度-再現率曲線において、SPLDExtraTreesは平均精度(AP)がExtraTrees∗よりも18%高い結果を示し、耐性予測における偽陽性が少ないことを示した。
- 最も関連性の高いTKIデータセットでトレーニングした場合、SPLDExtraTreesはRosetta(REF15)や分子動力学シミュレーションを含むすべての比較手法を上回った。
- Rosetta REF15からの物理的特徴の統合により、AUCおよびROC性能が顕著に向上し、補足図S10~S13で示された。
- タンパク質スーパーファミリー情報はアミノ酸置換タイプの選択よりも効果的であったが、後者は依然としてわずかな性能向上をもたらし、とくに非極性から極性への変換において顕著であった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。