QUICK REVIEW

[論文レビュー] Protein Secondary Structure Prediction Using Deep Multi-scale Convolutional Neural Networks and Next-Step Conditioning

Akosua Busia, Jasmine Collins|arXiv (Cornell University)|Nov 4, 2016

Machine Learning in Bioinformatics参考文献 20被引用数 18

ひとこと要約

本稿では、残差接続と次ステップ条件付き予測を備えた深層マルチスケール畳み込みニューラルネットワークを提案し、単一モデルでCB513上で70.0%のQ8正答率を達成し、条件付きモデルを用いたアンサンブルでは70.6%を達成した。本手法は、最新の深層学習技術と、条件付き予測における過学習を軽減するための新規アンサンブル戦略を活用することで、先行研究を上回った。

ABSTRACT

Recently developed deep learning techniques have significantly improved the accuracy of various speech and image recognition systems. In this paper we adapt some of these techniques for protein secondary structure prediction. We first train a series of deep neural networks to predict eight-class secondary structure labels given a protein's amino acid sequence information and find that using recent methods for regularization, such as dropout and weight-norm constraining, leads to measurable gains in accuracy. We then adapt recent convolutional neural network architectures--Inception, ReSNet, and DenseNet with Batch Normalization--to the problem of protein structure prediction. These convolutional architectures make heavy use of multi-scale filter layers that simultaneously compute features on several scales, and use residual connections to prevent underfitting. Using a carefully modified version of these architectures, we achieve state-of-the-art performance of 70.0% per amino acid accuracy on the public CB513 benchmark dataset. Finally, we explore additions from sequence-to-sequence learning, altering the model to make its predictions conditioned on both the protein's amino acid sequence and its past secondary structure labels. We introduce a new method of ensembling such a conditional model with our convolutional model, an approach which reaches 70.6% Q8 accuracy on CB513. We argue that these results can be further refined for larger boosts in prediction accuracy through more sophisticated attempts to control overfitting of conditional models. We aim to release the code for these experiments as part of the TensorFlow repository.

研究の動機と目的

画像認識から取り入れた最新の深層学習アーキテクチャを用いて、タンパク質二次構造予測の精度を向上させること。
マルチスケール畳み込み層と残差接続が二次構造予測に与える影響を調査すること。
過去の二次構造ラベルを条件として用いるシーケンス・ツー・シーケンスの条件付き予測が、予測精度に寄与するかを検討すること。
無条件畳み込みモデルと組み合わせた新規アンサンブル戦略により、条件付きモデルにおける過学習を緩和すること。
単一モデルとアンサンブル手法を用いて、CB513ベンチマークデータセットで新たなSOTA（最先端）の結果を確立すること。

提案手法

畳み込みニューラルネットワークアーキテクチャ（Inception、ResNet、DenseNet）をタンパク質配列データに適応させ、バッチ正規化とマルチスケールフィルタを導入した。
ドロップアウトや重み正規化制約などの正則化技術を適用し、一般化性能を向上させ、過学習を低減した。
局所的な配列コンテキストを保持し、層間での情報損失を防ぐために、残差接続を導入した。
シーケンス・ツー・シーケンス学習にインspiredした、アミノ酸配列と過去の予測ラベルを条件として二次構造ラベルを予測する条件付きモデルを設計した。
無条件CNNと条件付きモデルの予測を重み付きビームサーチで統合するアンサンブル手法を採用し、誤差伝搬を低減した。
PSI-BLASTから得られる正規化されたPSSMプロファイルとワンホットエンコーディングを組み合わせた42次元の入力表現を用いた。

実験結果

リサーチクエスチョン

RQ1画像認識分野で開発された最新の深層畳み込みアーキテクチャは、タンパク質二次構造予測に効果的に適応可能か？
RQ2マルチスケール畳み込み層と残差接続は、8クラスの二次構造分類問題において、性能向上にどのように寄与するか？
RQ3過去の二次構造ラベルを条件として将来の予測を行うことで、タンパク質構造予測の精度に顕著な向上が得られるか？
RQ4条件付きモデルにおける過学習は、どの程度性能を制限するか？また、アンサンブル学習によってこれを緩和できるか？
RQ5アンサンブルやマルチタスク学習を用いずに、単一モデルで最先端の性能を達成できるか？

主な発見

提案されたマルチスケール残差畳み込みネットワークは、CB513ベンチマークで70.0%のQ8正答率を達成し、以前の最先端手法を0.3%上回った。
残差接続の追加により、単に畳み込みブロックを増やすのと比較して、より大きな正答率の向上が得られた。これは、情報の保持が改善されたことを示唆している。
条件付きモデル単体では、教師ありコンテキスト下で検証データで81.7%の次ステップ正答率を達成したが、ビームサーチを用いたテストでは67.1%に低下し、強い過学習が確認された。
条件付きモデルと無条件CNNをアンサンブル化することで、テスト正答率が70.6%に向上し、以前の最高記録比で0.9%の相対的向上を達成した。
2つの無条件モデルを単純にアンサンブルするのと比較して、アンサンブル手法は70.4%対70.6%と優れた性能を示し、過学習が見られるにもかかわらず、条件付き予測の恩恵が明確に確認された。
結果から、条件付きモデルにおける過学習の主な原因は、過去のラベルを単に複製しようとする傾向にあることが判明し、適切なアンサンブル重み付けによりこれを緩和できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。