[論文レビュー] dna2vec: Consistent vector representations of variable-length k-mers
dna2vec は、word2vec-style の skip-gram モデルを用いて可変長の k-mer に対して分散表現を固定次元で学習し、ベクトル演算がヌクレオチドの連結を反映し、Needleman-Wunsch 相似度と相関することを示す。
One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.
研究の動機と目的
- ワンホット表現における k-mer 表現の次元の呪いを克服する動機づけ。
- 共通のベクトル空間における可変長 k-mer 埋め込みを提案する。
- dna2vec のベクトル演算がヌクレオチドの連結を反映することを示す。
- 埋め込みの類似度を従来のシーケンス整列尺度と関連づける。
- 生物学的シーケンスに対する下流の機械学習への潜在的な適用を示す。
提案手法
- ゲノムを長い非重複断片に変換し、オプションでリバース補完鎖を使用する。
- ウィンドウをスライドして重なりを持つ可変長 k-mer を生成する。k は Uniform(k_low, k_high) からサンプルする。
- word2vec に従い、ターゲット k-mer の周囲の文脈 k-mer を予測する浅い二層ニューラルネットワーク(skip-gram)を訓練する。
- 集約モデルを、最近傍探索のために各 k-mer 長さごとに個別のモデルに分解する。
実験結果
リサーチクエスチョン
- RQ1可変長 k-mer を長さを跨いで、一貫したベクトル空間に埋め込むことはできるか(3 ≤ k ≤ 8)?
- RQ2dna2vec 埋め込みはヌクレオチドの連結を反映するベクトル演算をサポートするか?
- RQ3埋め込みのコサイン類似度と従来の配列類似度(例:Needleman-Wunsch)との関係はあるか?
- RQ4埋め込みされた k-mer の最近傍関係は、生物学的シーケンスの類似性とどのように関連するか?
主な発見
| Operands | Concatenated | 1-NN | 5-NN | 10-NN |
|---|---|---|---|---|
| 3-mer + 3-mer | 6-mer | 28.7% | 80.3% | 94.6% |
| 3-mer + 4-mer | 7-mer | 49.9% | 90.4% | 97.4% |
| 3-mer + 5-mer | 8-mer | 53.9% | 94.0% | 98.4% |
| 4-mer + 4-mer | 8-mer | 73.5% | 96.8% | 99.2% |
- dna2vec は異なる長さの k-mers を共通の100次元空間に埋め込む。
- 2つの k-mer のベクトル和はしばしば、それらの連結に対応する最近傍を生み出し、ヌクレオチドの連結のアナロジーを支持する。
- dna2vec ベクトル間のコサイン類似度は Needleman-Wunsch 類似度スコアと相関する(Spearman ρ ≈ 0.831)。
- 埋め込み空間での k-mer の最近傍は、ランダムなペアとは異なる整列類似度分布を持つ傾向があり、生物学的に意味のある構造を示す。
- アナロジー実験は、強い結合と弱い結合の連結の両方に対してかなりの正確さを示し、例として強い/制約された連結は長さを跨いで高いアナロジー得点を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。