QUICK REVIEW

[论文解读] dna2vec: Consistent vector representations of variable-length k-mers

Patrick Ng|arXiv (Cornell University)|Jan 23, 2017

Topic Modeling参考文献 6被引用 147

一句话总结

dna2vec 学习对变量长度的 k-mer 的分布式、固定维度嵌入，使用类似 word2vec 的 skip-gram 模型，并且表明向量代数与核苷酸拼接相一致，并与 Needleman-Wunsch 相似度相关。

ABSTRACT

One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.

研究动机与目标

激发克服 one-hot k-mer 表示中的维度灾难。
提出在一个共同向量空间中表示可变长度 k-mer 的嵌入。
证明 dna2vec 的向量运算反映了核苷酸的拼接。
将嵌入相似性与传统的序列比对度量联系起来。
展示在生物序列下游机器学习中的潜在应用。

提出的方法

将基因组转换成长的非重叠片段，并可选地使用反向互补序列。
通过滑动窗口生成重叠的可变长度 k-mer，k 的取值从 Uniform(k_low, k_high) 采样。
训练一个浅层两层神经网络（skip-gram），遵循 word2vec 的思路，预测目标 k-mer 周围的上下文 k-mer。
将聚合模型分解为每个 k-mer 长度的单独模型，用于最近邻搜索。

实验结果

研究问题

RQ1可变长度的 k-mer 是否能够在跨长度（3 ≤ k ≤ 8）的一致向量空间中进行嵌入？
RQ2dna2vec 嵌入是否支持与核苷酸拼接相对应的向量运算？
RQ3嵌入的余弦相似性是否与传统的序列相似性度量（例如 Needleman-Wunsch）存在关系？
RQ4嵌入的 k-mer 最近邻关系如何与生物序列相似性相关？

主要发现

操作数	已拼接	1-最近邻	5-最近邻	10-最近邻
3-mer + 3-mer	6-mer	28.7%	80.3%	94.6%
3-mer + 4-mer	7-mer	49.9%	90.4%	97.4%
3-mer + 5-mer	8-mer	53.9%	94.0%	98.4%
4-mer + 4-mer	8-mer	73.5%	96.8%	99.2%

dna2vec 将不同长度的 k-mer 嵌入到一个共同的 100 维空间。
两个 k-mer 的向量相加通常会得到与它们拼接相对应的最近邻，支持核苷酸拼接类比。
dna2vec 向量之间的余弦相似性与 Needleman-Wunsch 相似度分数相关（在报道的分析中 Spearman ρ 约为 0.831）。
嵌入空间中一个 k-mer 的最近邻往往具有与随机对比不同的比对相似性分布，表明具有生物学上有意义的结构。
类比实验在强拼接和弱拼接上都显示出相当高的准确性，例如强/受限拼接在不同长度上实现了较高的类比分数。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。