QUICK REVIEW

[論文レビュー] Protein Secondary Structure Prediction with Long Short Term Memory Networks

Søren Kaae Sønderby, Ole Winther|arXiv (Cornell University)|Dec 25, 2014

Machine Learning in Bioinformatics参考文献 18被引用数 102

ひとこと要約

本論文では、タンパク質の二次構造予測のための双方向LSTM（Long Short-Term Memory）再帰ニューラルネットワークを提案する。このモデルは、LSTM層間および前向き・後向き状態の出力結合部にフィードフォワードネットワークを統合している。本モデルは、CB513ベンチマークにおいて、SOTA（最先端）のQ8正答率0.674を達成し、GSNやCNFモデルを含む先行手法を上回っている。

ABSTRACT

Prediction of protein secondary structure from the amino acid sequence is a classical bioinformatics problem. Common methods use feed forward neural networks or SVMs combined with a sliding window, as these models does not naturally handle sequential data. Recurrent neural networks are an generalization of the feed forward neural network that naturally handle sequential data. We use a bidirectional recurrent neural network with long short term memory cells for prediction of secondary structure and evaluate using the CB513 dataset. On the secondary structure 8-class problem we report better performance (0.674) than state of the art (0.664). Our model includes feed forward networks between the long short term memory cells, a path that can be further explored.

研究の動機と目的

逐次的なアミノ酸配列データを用いたディープラーニングによるタンパク質二次構造予測の精度向上を目的とする。
従来のフィードフォワードネットワークやSVMでは、タンパク質配列内の長距離依存関係をモデル化できないという制限を克服することを目的とする。
特に双方向LSTMを用いることで、タンパク質配列の両方向からの文脈を捉えるLSTMの逐次モデリング能力を活用することを目的とする。
より良い特徴統合を実現するため、再帰構造内および出力層にフィードフォワードネットワークを統合して性能を向上させることを目的とする。
8クラスの二次構造予測タスクにおいて、CB513データセットで新たなSOTA結果を確立することを目的とする。

提案手法

アミノ酸配列を前向きおよび後向きの両方向に処理する双方向LSTMアーキテクチャを用いる。
LSTM隠れ状態間の表現を精緻化するために、残差接続に類似したスキップ接続を備えたフィードフォワードニューラルネットワークを導入する。
前向きおよび後向きLSTMネットワークの出力を連結・正規化した後、最終分類のための別のフィードフォワードネットワークを適用する。
PSI-BLASTから得られる配列プロファイル特徴と1-of-kアミノ酸表現を組み合わせた42次元の入力符号化を採用する。
L2ノルムが0.5を超えた場合に勾配クリッピングを適用するAdaDelta最適化法を用い、連結ネットワークに50%のドロップアウトを適用して正則化する。
3層のLSTM（1層あたり300または500ユニット）を用い、特徴統合および予測のためのReLU活性化関数を備えた全結合フィードフォワード層を設ける。

実験結果

リサーチクエスチョン

RQ1内部にフィードフォワードネットワークを統合した双方向LSTMは、既存のSOTAモデルを上回る性能を示せるか？
RQ2LSTM層間へのフィードフォワードネットワークの統合は、表現学習および予測精度の向上に寄与するか？
RQ3LSTMは、標準的なRNNの制限を超えて、タンパク質配列における長距離依存関係を効果的にモデル化できるか？
RQ4CB513ベンチマークにおいて、本アーキテクチャは生成的確率的ネットワーク（GSN）および条件付きニューラルフィールド（CNF）と比較してどのように差をつけるか？
RQ5双方向コンテキストと残差型接続の使用は、Q8正答率の向上に顕著な効果をもたらすか？

主な発見

提案されたLSTMモデルは、CB513テストセットにおいてQ8正答率0.674を達成し、新たなSOTA性能を確立した。
本モデルは、以前のSOTA手法である生成的確率的ネットワーク（GSN）の0.664正答率を上回った。
SSpro8で報告された双方向RNN（BRNN）ベースライン（正答率0.511）を著しく上回った。
条件付きニューラルフィールド（CNF）アンサンブル手法は0.649の正答率を達成したが、本モデルは顕著な改善を示した。
LSTM層間および出力結合部へのフィードフォワードネットワークの統合が、標準的な双方向LSTM構成よりも性能向上に寄与している。
本モデルの性能は、すべての二次構造クラスで安定しており、頻度の高いクラス（HおよびE）においても高い予測精度を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。