QUICK REVIEW

[論文レビュー] Comparing two deep learning sequence-based models for protein-protein interaction prediction

Florian Richoux, Charlène Servantie|arXiv (Cornell University)|Jan 15, 2019

Bioinformatics and Genomic Networks参考文献 21被引用数 25

ひとこと要約

この論文は、過学習と情報漏洩を厳密に回避しながら、高精度にヒトのタンパク質-タンパク質相互作用（PPI）を予測するため、全結合型と再帰型ニューラルネットワークの2つのディーブラーニングモデルを比較している。最高のモデルは、訓練および検証に使用されていないタンパク質が一切含まれない厳密なホールドアウトテストセットで78.33%の精度を達成し、一般化性能とスケーラビリティの可能性を示している。

ABSTRACT

Biological data are extremely diverse, complex but also quite sparse. The recent developments in deep learning methods are offering new possibilities for the analysis of complex data. However, it is easy to be get a deep learning model that seems to have good results but is in fact either overfitting the training data or the validation data. In particular, the fact to overfit the validation data, called "information leak", is almost never treated in papers proposing deep learning models to predict protein-protein interactions (PPI). In this work, we compare two carefully designed deep learning models and show pitfalls to avoid while predicting PPIs through machine learning methods. Our best model predicts accurately more than 78% of human PPI, in very strict conditions both for training and testing. The methodology we propose here allow us to have strong confidences about the ability of a model to scale up on larger datasets. This would allow sharper models when larger datasets would be available, rather than current models prone to information leaks. Our solid methodological foundations shall be applicable to more organisms and whole proteome networks predictions.

研究の動機と目的

強い一般化保証を得るため、シーケンスベースのタンパク質-タンパク質相互作用（PPI）予測を目的とした2つのディーブラーニングモデルの開発と比較を行う。
タンパク質が各セット間で再出現しないように、訓練・検証・テストセットを厳密に分離することで、過学習と情報漏洩を防止する。
将来的な大規模データセットや他の生物種への応用を想定し、PPI予測のための堅牢で再現可能な手法を確立する。
データ漏洩や不適切なデータ分割によるバイアスを避けるために、極めて厳しい条件下でのモデル性能を評価する。
今後のインターフェースレベルのPPI予測や全プロテオームネットワークモデリングの基盤を提供する。

提案手法

UniProtのヒトPPIアノテーションからデータセットを構築し、陽性と陰性のペアをバランスさせ、1166アミノ酸以下であるタンパク質にフィルタリングした。
標準的な分割により、各セットに50%の陽性および50%の陰性サンプルを含む通常の訓練・検証・テストセットを作成した。
少なくとも1つのタンパク質がデータセット全体でたった2回以下しか出現しないペアを特定し、それらのタンパク質ペアを分離することで、より厳しい分割を実現した。これにより、各セット間でタンパク質の重複が完全に回避された。
2つのディーブラーニングモデルを訓練した：全結合ネットワークと、LSTMベースの再帰型ニューラルネットワーク（RNN）で、両者とも入力として原始的なアミノ酸配列を使用した。
ハイパーパrameterチューニングはホールドアウト検証セットでのみ実施され、最終的な評価は情報漏洩を防ぐために厳密なホールドアウトテストセットで実施された。
手作業で特徴を設計せず、シーケンス埋め込みをエンドツーエンドで学習し、ディーブラーニングが複雑なパターンを自動で抽出できる能力を活用した。

実験結果

リサーチクエスチョン

RQ1厳密な評価プロトコルにおいて、過学習や情報漏洩を回避しながら、高精度なPPI予測が可能なディーブラーニングモデルを構築できるか？
RQ2シーケンスベースのPPI予測において、全結合型と再帰型ニューラルネットワークのアーキテクチャは、性能と頑健性の点でどのように比較できるか？
RQ3訓練・検証・テストセット間でタンパク質の重複がない場合、モデルの一般化性能と信頼性はどの程度向上するか？
RQ4データ漏洩を防ぐ手法を適用することで、将来的な大規模データセットにおけるスケーラブルなPPI予測が可能になるか？
RQ5タンパク質の再利用がないホールドアウトテストセットを用いることで、モデル評価の精度と信頼性にどのような影響が生じるか？

主な発見

再帰型モデルは、訓練および検証に使用されていないタンパク質が一切含まれない厳密なホールドアウトテストセットで78.33%の精度を達成し、強力な一般化性能を示した。
全結合モデルも、同じ厳密なテストセットで76.25%の精度を達成し、アーキテクチャを問わず一貫した性能を示した。
厳密な評価プロトコルにより、情報漏洩が効果的に防止されたことが、未観測のタンパク質ペアに対して高い性能を示すことで裏付けられた。
本研究は、多くの既存のPPI予測手法がデータ漏洩や不適切な検証手法に起因し、モデルの信頼性が損なわれていることを浮き彫りにした。
本手法により、細胞小器官局在性や繰り返し出現するタンパク質へのバイアスが排除され、生物学的解釈可能性が向上した。
著者らは、再現性を確保するため、完全なコード、データ、実験設定を公開しており、将来的なベンチマークや他の生物種への応用を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。