QUICK REVIEW

[論文レビュー] Neural Distance Embeddings for Biological Sequences

Gabriele Corso, Rex Ying|arXiv (Cornell University)|Sep 20, 2021

Bioinformatics and Genomic Networks参考文献 77被引用数 12

ひとこと要約

NeuroSEED は、進化的な編集距離を保持するように生物学的配列を幾何的ベクトル空間に埋め込むニューラルフレームワークであり、他の幾何学的構造と比較して双曲空間を用いることで、埋め込みのRMSEを22%低減する。このフレームワークは、階層的クラスタリングや多次元配列アラインメントといったコアなバイオインフォマティクスタスクの高速かつ高精度な近似を可能にし、ベースラインと比較して最大30倍の高速化を達成しながら、同等またはそれ以上の精度を実現する。

ABSTRACT

The development of data-dependent heuristics and representations for biological sequences that reflect their evolutionary distance is critical for large-scale biological research. However, popular machine learning approaches, based on continuous Euclidean spaces, have struggled with the discrete combinatorial formulation of the edit distance that models evolution and the hierarchical relationship that characterises real-world datasets. We present Neural Distance Embeddings (NeuroSEED), a general framework to embed sequences in geometric vector spaces, and illustrate the effectiveness of the hyperbolic space that captures the hierarchical structure and provides an average 22% reduction in embedding RMSE against the best competing geometry. The capacity of the framework and the significance of these improvements are then demonstrated devising supervised and unsupervised NeuroSEED approaches to multiple core tasks in bioinformatics. Benchmarked with common baselines, the proposed approaches display significant accuracy and/or runtime improvements on real-world datasets. As an example for hierarchical clustering, the proposed pretrained and from-scratch methods match the quality of competing baselines with 30x and 15x runtime reduction, respectively.

研究の動機と目的

大規模な生物学的配列解析における正確な編集距離計算の計算的ボトル neck を解消すること。
生物学的進化に内在する階層的構造を捉える、データに依存する幾何的表現学習フレームワークを構築すること。
階層的クラスタリングと多次元配列アラインメントといったコアなバイオインフォマティクスタスクを、遅い組合せ的アルゴリズムの代わりに微分可能で学習可能な埋め込みに置き換えることで高速化すること。
双曲幾何が、ユークリッド空間や他の幾何学と比較して、配列埋め込みにおける編集距離の保持において顕著に優れていることを示すこと。
ニューラル距離埋め込みを用いて、シーケンス類似度とコンSENSUS配列予測のための効率的でスケーラブルかつ高精度な推論を可能にすること。

提案手法

NeuroSEED は、学習可能なエンコーダ fθ を用いて生物学的配列を幾何的ベクトル空間にマッピングし、編集距離 D(s1, s2) をベクトル距離 d(fθ(s1), fθ(s2)) として保持する。
複数の幾何構造（ユークリッド、コサイン、双曲）を評価し、双曲空間が進化的な関係の階層的構造を最もよく捉えていることが判明した。
学習には、予測されたベクトル距離と真の編集距離の平均二乗誤差（MSE）を最小化する。一般化性能を向上させるためにコントラスト損失またはトリプレット損失を用いる。
潜在的埋め込みからシーケンスを再構築するための変分オートエンコーダベースのデコーダを訓練し、再パラメータライゼーショントリックを用いてノイズを導入することで、分布外の点に対する耐性を高める。
双曲空間では、Poincaréボールモデルで一様性を維持するため、Wrapped Normal分布がガウスノイズの一般化として用いられる。
テスト段階では、スティーナー文字列（コンセンサス配列）は、すべてのシーケンス埋め込みからの距離の和を最小にする潜在空間内のベクトルを特定し、その後生成ネットワークでデコードすることで近似される。

実験結果

リサーチクエスチョン

RQ1学習可能でデータに依存する埋め込みフレームワークは、生物学的配列における離散的かつ組合せ的な編集距離を効果的に近似できるか？
RQ2双曲幾何は、ユークリッド空間やコサイン空間と比較して、編集距離の保持と進化的階層の捉え方において顕著な利点を提供するか？
RQ3NeuroSEED を用いたモデルは、階層的クラスタリングと多次元配列アラインメントを、精度を維持または向上させながら高速化できるか？
RQ4連続的リラクゼーションと変分オートエンコーダの使用は、シーケンス再構築とコンセンサス予測の耐性と性能をどのように向上させるか？
RQ5編集距離近似に於ける自己教師ありおよび自己教師なし学習は、下流のバイオインフォマティクスタスクへの一般化にどの程度寄与するか？

主な発見

双曲空間を用いる場合、NeuroSEED は、最も優れた競合幾何と比較して、平均で22%の埋め込みRMSE低減を達成した。
階層的クラスタリングにおいて、事前学習済みモデルを用いる場合、ベースラインと同等の精度を維持しながら30倍のランタイム短縮が達成された。学習から始めると15倍の短縮が達成された。
Qiita データセットにおいて、最高性能を示したモデル（双曲空間内でのCNNとトリプレット損失）は、最も近い文字列検索でトップ10精度85.7%を達成し、k-mer や FFP ベースラインを上回った。
変分オートエンコーダベースのアプローチにより、多次元配列アラインメントの性能は、競合するベースラインと同等の水準に達したが、ランタイムの複雑さを顕著に低減した。
双曲空間におけるトリプレット損失の使用は、不安定な学習を引き起こした。これは、MSEに基づく学習がこの幾何学においてより安定していることを示唆しているが、さらなる分析が必要である。
双曲空間におけるDasguptaのコストの連続的リラクゼーションにより、状態アーリエスト法と同等の品質を得ながら、階層的クラスタリングの処理速度が15倍に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。