[论文解读] dna2vec: Consistent vector representations of variable-length k-mers
dna2vec 学习对变量长度的 k-mer 的分布式、固定维度嵌入,使用类似 word2vec 的 skip-gram 模型,并且表明向量代数与核苷酸拼接相一致,并与 Needleman-Wunsch 相似度相关。
One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.
研究动机与目标
- 激发克服 one-hot k-mer 表示中的维度灾难。
- 提出在一个共同向量空间中表示可变长度 k-mer 的嵌入。
- 证明 dna2vec 的向量运算反映了核苷酸的拼接。
- 将嵌入相似性与传统的序列比对度量联系起来。
- 展示在生物序列下游机器学习中的潜在应用。
提出的方法
- 将基因组转换成长的非重叠片段,并可选地使用反向互补序列。
- 通过滑动窗口生成重叠的可变长度 k-mer,k 的取值从 Uniform(k_low, k_high) 采样。
- 训练一个浅层两层神经网络(skip-gram),遵循 word2vec 的思路,预测目标 k-mer 周围的上下文 k-mer。
- 将聚合模型分解为每个 k-mer 长度的单独模型,用于最近邻搜索。
实验结果
研究问题
- RQ1可变长度的 k-mer 是否能够在跨长度(3 ≤ k ≤ 8)的一致向量空间中进行嵌入?
- RQ2dna2vec 嵌入是否支持与核苷酸拼接相对应的向量运算?
- RQ3嵌入的余弦相似性是否与传统的序列相似性度量(例如 Needleman-Wunsch)存在关系?
- RQ4嵌入的 k-mer 最近邻关系如何与生物序列相似性相关?
主要发现
| 操作数 | 已拼接 | 1-最近邻 | 5-最近邻 | 10-最近邻 |
|---|---|---|---|---|
| 3-mer + 3-mer | 6-mer | 28.7% | 80.3% | 94.6% |
| 3-mer + 4-mer | 7-mer | 49.9% | 90.4% | 97.4% |
| 3-mer + 5-mer | 8-mer | 53.9% | 94.0% | 98.4% |
| 4-mer + 4-mer | 8-mer | 73.5% | 96.8% | 99.2% |
- dna2vec 将不同长度的 k-mer 嵌入到一个共同的 100 维空间。
- 两个 k-mer 的向量相加通常会得到与它们拼接相对应的最近邻,支持核苷酸拼接类比。
- dna2vec 向量之间的余弦相似性与 Needleman-Wunsch 相似度分数相关(在报道的分析中 Spearman ρ 约为 0.831)。
- 嵌入空间中一个 k-mer 的最近邻往往具有与随机对比不同的比对相似性分布,表明具有生物学上有意义的结构。
- 类比实验在强拼接和弱拼接上都显示出相当高的准确性,例如强/受限拼接在不同长度上实现了较高的类比分数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。