Skip to main content
QUICK REVIEW

[论文解读] Neural Distance Embeddings for Biological Sequences

Gabriele Corso, Rex Ying|arXiv (Cornell University)|Sep 20, 2021
Bioinformatics and Genomic Networks参考文献 77被引用 12
一句话总结

NeuroSEED 是一种神经框架,将生物序列嵌入几何向量空间以保留进化编辑距离,其中双曲空间相比其他几何结构将嵌入均方根误差(RMSE)降低了22%。该框架可实现快速、准确地近似核心生物信息学任务(如层次聚类和多序列比对),运行时间最快可比基线快30倍,同时保持或超越准确性。

ABSTRACT

The development of data-dependent heuristics and representations for biological sequences that reflect their evolutionary distance is critical for large-scale biological research. However, popular machine learning approaches, based on continuous Euclidean spaces, have struggled with the discrete combinatorial formulation of the edit distance that models evolution and the hierarchical relationship that characterises real-world datasets. We present Neural Distance Embeddings (NeuroSEED), a general framework to embed sequences in geometric vector spaces, and illustrate the effectiveness of the hyperbolic space that captures the hierarchical structure and provides an average 22% reduction in embedding RMSE against the best competing geometry. The capacity of the framework and the significance of these improvements are then demonstrated devising supervised and unsupervised NeuroSEED approaches to multiple core tasks in bioinformatics. Benchmarked with common baselines, the proposed approaches display significant accuracy and/or runtime improvements on real-world datasets. As an example for hierarchical clustering, the proposed pretrained and from-scratch methods match the quality of competing baselines with 30x and 15x runtime reduction, respectively.

研究动机与目标

  • 解决大规模生物序列分析中精确编辑距离计算带来的计算瓶颈问题。
  • 开发一种数据相关、基于几何的表示学习框架,以捕捉生物进化中固有的层次结构。
  • 通过用可微、可学习的嵌入替代缓慢的组合算法,加速核心生物信息学任务——层次聚类和多序列比对。
  • 证明双曲几何在保留序列嵌入中编辑距离方面显著优于欧几里得空间及其他几何结构。
  • 利用神经距离嵌入实现高效、可扩展且准确的序列相似性推断与一致序列预测。

提出的方法

  • NeuroSEED 使用可学习编码器 fθ 将生物序列映射到几何向量空间,以保留编辑距离 D(s1, s2) 作为向量距离 d(fθ(s1), fθ(s2))。
  • 该框架评估了多种几何结构(欧几里得、余弦、双曲),发现双曲空间最能捕捉层次化的进化关系。
  • 在训练过程中,模型通过最小化预测向量距离与真实编辑距离之间的均方误差(MSE),并使用对比损失或三元组损失以提升泛化能力。
  • 基于变分自编码器的解码器被训练以从潜在嵌入中重建序列,通过重参数化技巧注入噪声,以增强对分布外点的鲁棒性。
  • 在双曲空间中,Wrapped Normal 分布将高斯噪声推广至 Poincaré 球模型,以保持均匀性。
  • 在推理阶段,通过在潜在空间中寻找使到所有序列嵌入距离之和最小的向量来近似 Steiner 字符串(一致序列),然后通过生成网络解码该向量。

实验结果

研究问题

  • RQ1可学习、数据相关的嵌入框架是否能有效近似生物序列中的离散、组合型编辑距离?
  • RQ2与欧几里得或余弦空间相比,双曲几何在保留编辑距离和捕捉进化层次结构方面是否具有显著优势?
  • RQ3NeuroSEED 框架能否在保持或提升准确性的前提下,加速层次聚类和多序列比对?
  • RQ4连续松弛与变分自编码方法的结合如何提升序列重建与一致序列预测的鲁棒性与性能?
  • RQ5在编辑距离近似上进行无监督和自监督训练,其泛化能力在下游生物信息学任务中能达到何种程度?

主要发现

  • 与最佳竞争几何相比,使用双曲空间时,NeuroSEED 将嵌入均方根误差(RMSE)平均降低了22%。
  • 在层次聚类任务中,使用预训练模型时,该方法相比基线实现30倍的运行时间减少,训练从零开始时也实现了15倍的加速,同时保持了相当的准确性。
  • 在 Qiita 数据集上,表现最佳的模型(在双曲空间中使用三元组损失的 CNN)在最近似字符串检索任务中达到 85.7% 的 top-10 准确率,优于 k-mer 和 FFP 基线。
  • 基于变分自编码器的多序列比对方法性能与先进基线相当,同时显著降低了运行时间复杂度。
  • 在双曲空间中使用三元组损失导致训练不稳定,表明在该几何结构中基于 MSE 的训练更具稳定性,尽管仍需进一步分析。
  • 在双曲空间中对 Dasgupta 成本的连续松弛使层次聚类的运行速度提升了15倍,且质量与最先进方法相当。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。