QUICK REVIEW

[論文レビュー] High Quality Prediction of Protein Q8 Secondary Structure by Diverse Neural Network Architectures

Iddo Drori, Isht Dwivedi|arXiv (Cornell University)|Nov 17, 2018

Protein Structure and Dynamics参考文献 28被引用数 25

ひとこと要約

本論文は、U-Net、時系列畳み込みネットワーク、注意メカニズムを備えた双方向RNNを含む、多様な新規ニューラルネットワークアーキテクチャのアンサンブルを提示し、高精度なタンパク質Q8二次構造予測を実現した。厳密にクリーニングされたデータセットと完全に再現可能なコードおよびモデルを用いて、CB513テストセットで70.7%、CB6133で76.3%の最先端性能を達成した。

ABSTRACT

We tackle the problem of protein secondary structure prediction using a common task framework. This lead to the introduction of multiple ideas for neural architectures based on state of the art building blocks, used in this task for the first time. We take a principled machine learning approach, which provides genuine, unbiased performance measures, correcting longstanding errors in the application domain. We focus on the Q8 resolution of secondary structure, an active area for continuously improving methods. We use an ensemble of strong predictors to achieve accuracy of 70.7% (on the CB513 test set using the CB6133filtered training set). These results are statistically indistinguishable from those of the top existing predictors. In the spirit of reproducible research we make our data, models and code available, aiming to set a gold standard for purity of training and testing sets. Such good practices lower entry barriers to this domain and facilitate reproducible, extendable research.

研究の動機と目的

最新のニューラルネットワークアーキテクチャを用いて、Q8タンパク質二次構造予測の最先端技術を向上させること。
過去のベンチマークで長年にわたり問題視されてきたデータ汚染および評価バイアスに対処するため、クリーニング済みで相同性フィルタをかけた訓練セットを用いること。
完全に再現可能な研究をタンパク質構造予測分野のゴールドスタンダードとするために、コード、データ、モデルを公開すること。
U-Net や時系列畳み込みネットワークを含む多様なディーブラーニングアーキテクチャを、二次構造予測の文脈で評価すること。
広く使われているCB6133ベンチマークにおけるデータ問題を是正し、分野全体のベンチマーク手法を改善すること。

提案手法

U-Netに畳み込みブロックを組み込んだもの、時系列畳み込みネットワーク、注意メカニズムを備えた双方向RNNを含む、6種類の異なるニューラルネットワークアーキテクチャのアンサンブルを設計および訓練した。
データ漏洩を防ぎ、偏りのない評価を保証するため、20%未満の配列相同性を持つホモロジー・フィルタをかけた訓練セット（CB6133filtered）を採用した。
公平な比較のため、標準化された公開ベンチマーク（CB513）と更新済みのCB6133データセットを用いた。
特徴表現の向上と一般化性能の向上のため、アーキテクチャ全体にマルチタスク学習と残差接続を適用した。
偏りのない性能測定を保証するため、訓練、検証、テストの各セットを明確に分離した、原則的な機械学習パイプラインを実装した。
一部のモデルでは注意メカニズムを導入し、関連する配列および構造的パターンに注目することで、長距離依存性のモデリングを改善した。

実験結果

リサーチクエスチョン

RQ1多様で最先端のニューラルネットワークアーキテクチャは、従来の手法と比較して、Q8二次構造予測の精度をさらに向上させることができるか？
RQ2厳密にフィルタリングされた訓練セット（CB6133filtered）の使用が、標準ベンチマークにおけるモデルの一般化性能や性能に与える影響は何か？
RQ3U-Net や時系列畳み込みネットワークといった新規アーキテクチャは、タンパク質二次構造予測の精度をどの程度向上させるか？
RQ4過去の研究で報告された性能に影響を与えるデータ汚染および不適切なベンチマーク手法の影響は何か？そして、それらはどのように是正できるか？
RQ5完全に再現可能な研究ワークフロー（オープンデータ、モデル、コードの公開）は、タンパク質構造予測研究の信頼性と進展をどのように向上させられるか？

主な発見

アンサンブルモデルはCB513テストセットで70.7%のQ8正解率を達成し、既存のトップ予測器と統計的に差がない結果を得た。
最良の単一モデルはCB6133データセットで75.4%の正解率を記録したが、アンサンブルは76.3%に達し、これまでに発表されたあらゆる手法を上回った。
ヘリックス（H）では89%のF1スコア、拡張ストランド（E）では79%のF1スコアを示し、主要な構造的要素の予測が堅実であることが示された。
本研究ではCB6133ベンチマークに存在していたデータ汚染問題を特定・是正した。この問題は原作者によって迅速に修正され、ベンチマークの信頼性が向上した。
希少なクラスI（中間的）では、精度と再現率がそれぞれ0.0であった。これは、頻度が低く、曖昧さが強いことから、依然として大きな課題であることを示している。
U-Netおよび時系列畳み込みネットワークの変種は、それぞれ75.4%の正解率を示し、これらアーキテクチャが二次構造予測タスクに適している可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。