QUICK REVIEW

[論文レビュー] Distributed Representations for Biological Sequence Analysis

Dhananjay Kimothi, Akshay Soni|arXiv (Cornell University)|Aug 21, 2016

Machine Learning in Bioinformatics参考文献 27被引用数 55

ひとこと要約

この論文では、skip-gram や CBOW といった自然言語処理のニューラルネットワークアーキテクチャを適応することで、生物学的配列の分散表現を学習する新しい手法 seq2vec を提案する。タンパク質配列分類の評価において、seq2vec は ProtVec や他の最先端手法と比較して、すべての指標で 4–6% の性能向上を達成し、低次元のベクトル空間における文脈的・機能的情報を優れた形で捉えていることを示している。

ABSTRACT

Biological sequence comparison is a key step in inferring the relatedness of various organisms and the functional similarity of their components. Thanks to the Next Generation Sequencing efforts, an abundance of sequence data is now available to be processed for a range of bioinformatics applications. Embedding a biological sequence over a nucleotide or amino acid alphabet in a lower dimensional vector space makes the data more amenable for use by current machine learning tools, provided the quality of embedding is high and it captures the most meaningful information of the original sequences. Motivated by recent advances in the text document embedding literature, we present a new method, called seq2vec, to represent a complete biological sequence in an Euclidean space. The new representation has the potential to capture the contextual information of the original sequence necessary for sequence comparison tasks. We test our embeddings with protein sequence classification and retrieval tasks and demonstrate encouraging outcomes.

研究の動機と目的

機能的・進化的関係を保持した低次元ベクトル空間における生物学的配列のスケーラブルでアライメントフリーな表現手法の開発。
BLAST や動的プログラミングといった従来のアラインメント手法の計算効率の低さを解消し、それらを学習済み埋め込み表現に置き換える。
ニューラルネットワークベースの表現学習により文脈的・構造的情報を捉えることで、タンパク質配列分類および検索の性能を向上させる。
提案された埋め込み表現の有効性を、特にマルチクラスタンパク質ファミリー分類を含む実世界のバイオインフォマティクスタスクにおいて評価する。
学習済み埋め込み表現が、ProtVec や BLAST といった既存手法を上回るか補完する可能性を検討する。

提案手法

word2vec で用いられる skip-gram および CBOW アーキテクチャを生物学的配列全体を連続的ベクトル表現としてモデル化するために適応する。
タンパク質配列から抽出した k-mer（長さ k の部分列）をスライディングウインドウで処理し、密なベクトル空間における分散表現を学習する。
確率的勾配降下法を用いて、中央の k-mer を基に周囲の k-mer を予測する（skip-gram）か、周囲の文脈から中央の k-mer を予測する（CBOW）ことで、埋め込みパラメータを最適化する。
大規模な生物学的配列データセットでの学習効率を向上させるために、階層的ソフトマックスまたはネガティブサンプリングを適用する。
訓練用およびテスト用の両方の配列を同じベクトル空間に埋め込むことで、k-近傍法分類が可能になる。
ハイパーパramータをグリッドサーチで最適化した一対多の線形SVMを用いてマルチクラス分類を実行する。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークベースのアプローチは、機能的・進化的関係を保持した意味のある低次元の生物学的配列表現を学習できるか？
RQ2seq2vec の性能は、タンパク質配列分類タスクにおいて ProtVec や他の既存の埋め込み手法と比較してどうなるか？
RQ3学習済み埋め込み表現は、BLAST のようなヒューリスティックツールに比べて、どの程度性能を上回るか、あるいは補完的役割を果たせるか？
RQ4seq2vec における文脈モデリングは、置換行列やアラインメントスコアに明示的に記録されていない生物学的に意味のあるパターンを捉えることができるか？
RQ5多様なタンパク質ファミリーにおける配列長や組成の変動に対して、埋め込み表現はどの程度頑健か？

主な発見

マルチクラスタンパク質ファミリー分類において、seq2vec はすべての評価指標（精度、再現率、F1スコア）で ProtVec より 4–6% の精度向上を達成した。
seq2vec 埋め込みを用いた k-NN 分類は、テストした k のすべての値で ProtVec 埋め込みに基づく分類を常に上回った。
BLAST が検索ベースラインとして強い性能を示す中、seq2vec は依然として競争力のある結果を達成しており、学習済み埋め込み表現が生物学的に関連する類似性を暗黙的にモデル化できることを示唆している。
seq2vec と BLAST の間の性能差は、現在の埋め込み手法が進化的な置換パターンをより良くモデル化できる余地があることを示しており、改善の余地が残っていることを示している。
結果から、seq2vec はタンパク質配列に内在する文脈的・機能的情報を効果的に捉えており、下流の機械学習タスクにおける一般化性能の向上に寄与していることが明らかになった。
本手法はスケーラブルで効率的であり、アラインメントベース手法が計算的に非現実的となるような大規模な生物学的配列解析に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。