Skip to main content
QUICK REVIEW

[論文レビュー] dna2vec: Consistent vector representations of variable-length k-mers

Patrick Ng|arXiv (Cornell University)|Jan 23, 2017
Topic Modeling参考文献 6被引用数 147
ひとこと要約

dna2vec は、word2vec-style の skip-gram モデルを用いて可変長の k-mer に対して分散表現を固定次元で学習し、ベクトル演算がヌクレオチドの連結を反映し、Needleman-Wunsch 相似度と相関することを示す。

ABSTRACT

One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.

研究の動機と目的

  • ワンホット表現における k-mer 表現の次元の呪いを克服する動機づけ。
  • 共通のベクトル空間における可変長 k-mer 埋め込みを提案する。
  • dna2vec のベクトル演算がヌクレオチドの連結を反映することを示す。
  • 埋め込みの類似度を従来のシーケンス整列尺度と関連づける。
  • 生物学的シーケンスに対する下流の機械学習への潜在的な適用を示す。

提案手法

  • ゲノムを長い非重複断片に変換し、オプションでリバース補完鎖を使用する。
  • ウィンドウをスライドして重なりを持つ可変長 k-mer を生成する。k は Uniform(k_low, k_high) からサンプルする。
  • word2vec に従い、ターゲット k-mer の周囲の文脈 k-mer を予測する浅い二層ニューラルネットワーク(skip-gram)を訓練する。
  • 集約モデルを、最近傍探索のために各 k-mer 長さごとに個別のモデルに分解する。

実験結果

リサーチクエスチョン

  • RQ1可変長 k-mer を長さを跨いで、一貫したベクトル空間に埋め込むことはできるか(3 ≤ k ≤ 8)?
  • RQ2dna2vec 埋め込みはヌクレオチドの連結を反映するベクトル演算をサポートするか?
  • RQ3埋め込みのコサイン類似度と従来の配列類似度(例:Needleman-Wunsch)との関係はあるか?
  • RQ4埋め込みされた k-mer の最近傍関係は、生物学的シーケンスの類似性とどのように関連するか?

主な発見

OperandsConcatenated1-NN5-NN10-NN
3-mer + 3-mer6-mer28.7%80.3%94.6%
3-mer + 4-mer7-mer49.9%90.4%97.4%
3-mer + 5-mer8-mer53.9%94.0%98.4%
4-mer + 4-mer8-mer73.5%96.8%99.2%
  • dna2vec は異なる長さの k-mers を共通の100次元空間に埋め込む。
  • 2つの k-mer のベクトル和はしばしば、それらの連結に対応する最近傍を生み出し、ヌクレオチドの連結のアナロジーを支持する。
  • dna2vec ベクトル間のコサイン類似度は Needleman-Wunsch 類似度スコアと相関する(Spearman ρ ≈ 0.831)。
  • 埋め込み空間での k-mer の最近傍は、ランダムなペアとは異なる整列類似度分布を持つ傾向があり、生物学的に意味のある構造を示す。
  • アナロジー実験は、強い結合と弱い結合の連結の両方に対してかなりの正確さを示し、例として強い/制約された連結は長さを跨いで高いアナロジー得点を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。