Skip to main content
QUICK REVIEW

[论文解读] A novel method for the estimation of diversity in viral populations from next generation sequencing data

Jean Paulo Lopes Zukurov, Sieberth N. Brito|arXiv (Cornell University)|May 8, 2014
Evolution and Genetic Dynamics参考文献 15被引用 1
一句话总结

本文提出 Tanden,一种基于贝叶斯方法的病毒基因组多样性估算方法,适用于短读长 NGS 数据,尤其利用 SOLiD 等平台的低错误率和深度覆盖特性。通过使用多项分布对位点特异性等位基因频率进行建模,并利用先验信息区分信号与噪声,Tanden 在多样性估算精度上优于基于频率的方法。

ABSTRACT

In this paper we propose a method and discuss its computational implementation as an integrated tool for the analysis of viral genetic diversity on data generated by high-throughput sequencing. Most methods for viral diversity estimation proposed so far are intended to take benefit of the longer reads produced by some NGS platforms in order to estimate a population of haplotypes. Our goal here is to take advantage of distinct virtues of a certain kind of NGS platform - the platform SOLiD (Life Technologies) is an example - that has not received much attention due to the short length of its reads, which renders haplotype estimation very difficult. However, this kind of platform has a very low error rate and extremely deep coverage per site and our method is designed to take advantage of these characteristics. We propose to measure the populational genetic diversity through a family of multinomial probability distributions indexed by the sites of the virus genome, each one representing the populational distribution of the diversity per site. The implementation of the method focuses on two main optimization strategies: a read mapping/alignment procedure that aims at the recovery of the maximum possible number of short-reads; the estimation of the multinomial parameters through a Bayesian approach, which, unlike simple frequency counting, allows one to take into account the prior information of the control population within the inference of a posterior experimental condition and provides a natural way to separate signal from noise, since it automatically furnishes Bayesian confidence intervals. The methods described in this paper have been implemented as an integrated tool called Tanden (Tool for Analysis of Diversity in Viral Populations).

研究动机与目标

  • 为解决在短读长 NGS 数据中估算病毒基因组多样性的问题,特别是针对 SOLiD 等低错误率但读长较短的平台。
  • 克服现有基于单倍型的方法的局限性,这些方法依赖于更长的读长,在短而深度覆盖的数据中表现较差。
  • 开发一种方法,利用深度覆盖和低错误率,提高多样性估算的准确性。
  • 将来自对照群体的先验知识整合到推断过程中,以增强信号与噪声的分离能力。
  • 提供一个用户友好的集成工具(Tanden),用于病毒群体多样性分析。

提出的方法

  • 使用一组多项分布(每个基因组位点一个)对病毒基因组多样性进行建模,以表示等位基因频率分布。
  • 实施一种优化的读长比对/拼接策略,以在读长较短的情况下仍能最大限度地恢复短读长序列。
  • 采用贝叶斯框架估算多项分布参数,结合来自对照群体的先验信息以提升推断效果。
  • 生成后验分布和贝叶斯置信区间,以自然方式实现信号与噪声的分离。
  • 应用分层建模方法,实现在不同位点间的信息共享,同时保持各特定位点的多样性估计。
  • 开发 Tanden 软件工具,作为端到端分析 NGS 数据中病毒多样性的一体化流程。

实验结果

研究问题

  • RQ1与简单的频率计数相比,贝叶斯方法是否能提升在短读长 NGS 数据中对病毒基因组多样性的估算准确性?
  • RQ2在读长较短的情况下,SOLiD 等平台的深度覆盖和低错误率能否被有效利用以推断群体多样性?
  • RQ3将来自对照群体的先验信息纳入分析后,多样性估算的准确性能提升到何种程度?
  • RQ4贝叶斯置信区间是否能可靠地区分病毒群体中的真实生物学变异与测序噪声?
  • RQ5与现有基于单倍型的方法相比,所提出方法在灵敏度和特异性方面表现如何?

主要发现

  • Tanden 中的贝叶斯方法通过整合先验知识并减少低覆盖区域的噪声,实现了更精确的病毒多样性估算。
  • 该方法有效利用了 SOLiD 等短读长平台的深度覆盖和低错误率特性,使这些平台即使在读长较短的情况下也适用于多样性分析。
  • 贝叶斯置信区间提供了一种自然且可靠的方式,用于区分真实生物学变异与测序伪影。
  • 读长比对策略最大限度地恢复了短读长序列,提高了数据利用率并改善了参数估计。
  • Tanden 将多样性分析的所有步骤整合为单一工具,显著提升了病毒群体研究的可用性与可重复性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。