Skip to main content
QUICK REVIEW

[论文解读] dna2vec: Consistent vector representations of variable-length k-mers

Patrick Ng|arXiv (Cornell University)|Jan 23, 2017
Topic Modeling参考文献 6被引用 147
一句话总结

dna2vec 学习对变量长度的 k-mer 的分布式、固定维度嵌入,使用类似 word2vec 的 skip-gram 模型,并且表明向量代数与核苷酸拼接相一致,并与 Needleman-Wunsch 相似度相关。

ABSTRACT

One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.

研究动机与目标

  • 激发克服 one-hot k-mer 表示中的维度灾难。
  • 提出在一个共同向量空间中表示可变长度 k-mer 的嵌入。
  • 证明 dna2vec 的向量运算反映了核苷酸的拼接。
  • 将嵌入相似性与传统的序列比对度量联系起来。
  • 展示在生物序列下游机器学习中的潜在应用。

提出的方法

  • 将基因组转换成长的非重叠片段,并可选地使用反向互补序列。
  • 通过滑动窗口生成重叠的可变长度 k-mer,k 的取值从 Uniform(k_low, k_high) 采样。
  • 训练一个浅层两层神经网络(skip-gram),遵循 word2vec 的思路,预测目标 k-mer 周围的上下文 k-mer。
  • 将聚合模型分解为每个 k-mer 长度的单独模型,用于最近邻搜索。

实验结果

研究问题

  • RQ1可变长度的 k-mer 是否能够在跨长度(3 ≤ k ≤ 8)的一致向量空间中进行嵌入?
  • RQ2dna2vec 嵌入是否支持与核苷酸拼接相对应的向量运算?
  • RQ3嵌入的余弦相似性是否与传统的序列相似性度量(例如 Needleman-Wunsch)存在关系?
  • RQ4嵌入的 k-mer 最近邻关系如何与生物序列相似性相关?

主要发现

操作数已拼接1-最近邻5-最近邻10-最近邻
3-mer + 3-mer6-mer28.7%80.3%94.6%
3-mer + 4-mer7-mer49.9%90.4%97.4%
3-mer + 5-mer8-mer53.9%94.0%98.4%
4-mer + 4-mer8-mer73.5%96.8%99.2%
  • dna2vec 将不同长度的 k-mer 嵌入到一个共同的 100 维空间。
  • 两个 k-mer 的向量相加通常会得到与它们拼接相对应的最近邻,支持核苷酸拼接类比。
  • dna2vec 向量之间的余弦相似性与 Needleman-Wunsch 相似度分数相关(在报道的分析中 Spearman ρ 约为 0.831)。
  • 嵌入空间中一个 k-mer 的最近邻往往具有与随机对比不同的比对相似性分布,表明具有生物学上有意义的结构。
  • 类比实验在强拼接和弱拼接上都显示出相当高的准确性,例如强/受限拼接在不同长度上实现了较高的类比分数。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。