[論文レビュー] Next-Step Conditioned Deep Convolutional Neural Networks Improve Protein Secondary Structure Prediction
本論文は、順序付きシーケンス特徴および事前に予測された構造ラベルの両方に条件付けた次ステップ条件付き深層畳み込みニューラルネットワークを導入し、スケジュールドサンプリングを用いて性能を向上させた。アンサンブルを用いることで、CB513ベンチマークで71.4%のQ8正答率を達成し、8クラスの二次構造予測における単一モデルおよびアンサンブル手法の新しい最良成績を樹立した。
Recently developed deep learning techniques have significantly improved the accuracy of various speech and image recognition systems. In this paper we show how to adapt some of these techniques to create a novel chained convolutional architecture with next-step conditioning for improving performance on protein sequence prediction problems. We explore its value by demonstrating its ability to improve performance on eight-class secondary structure prediction. We first establish a state-of-the-art baseline by adapting recent advances in convolutional neural networks which were developed for vision tasks. This model achieves 70.0% per amino acid accuracy on the CB513 benchmark dataset without use of standard performance-boosting techniques such as ensembling or multitask learning. We then improve upon this state-of-the-art result using a novel chained prediction approach which frames the secondary structure prediction as a next-step prediction problem. This sequential model achieves 70.3% Q8 accuracy on CB513 with a single model; an ensemble of these models produces 71.4% Q8 accuracy on the same test set, improving upon the previous overall state of the art for the eight-class secondary structure problem. Our models are implemented using TensorFlow, an open-source machine learning software library available at TensorFlow.org; we aim to release the code for these experiments as part of the TensorFlow repository.
研究の動機と目的
- コンピュータビジョンから取り入れたディープラーニング技術を用いて、タンパク質の二次構造予測の精度を向上させること。
- 標準的な畳み込みネットワークがタンパク質構造内の逐次的依存関係を捉えることの制限を解決すること。
- 予測が以前に予測されたラベルに依存する「次ステップ条件付け」を導入し、二次構造予測における逐次的モデリングを向上させること。
- トレーニング中にスケジュールドサンプリングを適用することで、次ステップ条件付きモデルの過学習を軽減すること。
- 単一モデルおよびアンサンブルモデルを用いた8クラスの二次構造予測において、新しい最良成績を確立すること。
提案手法
- バッチ正規化、ドロップアウト、重み正規化などの技術を用いて、アミノ酸配列からの特徴学習を向上させるマルチスケールでリーマン接続付きの畳み込みニューラルネットワークを設計した。
- 1次元畳み込みを用い、3フィルターカーネルでアミノ酸埋め込みからの局所的パターンを抽出した。これには、ワンホットおよびPSSM符号化済みのアミノ酸も含まれる。
- 過去に予測された二次構造ラベルを次の予測の入力として供給することで、次ステップ条件付けを導入し、自己回帰的モデリングを可能にした。
- トレーニング中にスケジュールドサンプリングを適用し、訓練中に真値ラベルをモデルが予測したラベルにランダムに置き換えることで、過学習を軽減した。
- ラベルスムージングと早期停止を用いて、エントリーフェースでトレーニングし、過学習を防いだ。
- 複数の次ステップ条件付きネットワークをトレーニングし、予測を平均化することでアンサンブルモデルを作成し、耐性と精度を向上させた。
実験結果
リサーチクエスチョン
- RQ1次ステップ条件付けは、標準的な畳み込みネットワークを上回るタンパク質の二次構造予測を可能にするか?
- RQ2スケジュールドサンプリングは、次ステップ条件付きモデルの一般化性能にどのように影響するか?
- RQ3トレーニング中に真値ラベルの代わりに予測ラベルを使用することで、過学習はどの程度軽減されるか?
- RQ4リーマン接続とマルチスケールフィルターを備えた単一の深層畳み込みモデルは、アンサンブルなしで過去の最良成績を上回るか?
- RQ5言語モデリング技術をタンパク質配列モデリングに統合することで、二次構造予測の精度に顕著な向上が得られるか?
主な発見
- 高度な畳み込み技術を用いたベースラインモデルは、アンサンブルやマルチタスク学習を用いずに、CB513で70.0%のQ8正答率を達成し、単一モデルの新しい最良成績を樹立した。
- 次ステップ条件付けモデルは、単一モデルでCB513で70.3%のQ8正答率を達成し、ベースラインより0.3%の向上を示した。
- 次ステップ条件付けモデルのアンサンブルは、CB513で71.4%のQ8正答率を達成し、過去の全体的な最良成績より1.7%の向上を示した。
- スケジュールドサンプリングを適用しない場合、次ステップ条件付けモデルは著しく過学習し、検証精度が82%からテストセット推論時の67.1%に低下した。これは、スケジュールドサンプリングの必要性を強調している。
- レアまたは短い二次構造クラスに対してわずかな再現率の欠損が見られ、ラベル繰り返しに起因する継続的な過学習の兆候が示された。
- 提案されたアーキテクチャは汎用性が高く、溶媒露出度や骨格角度予測などの他のタンパク質配列予測タスクへも応用可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。