Skip to main content
QUICK REVIEW

[论文解读] A Generic Implementation of the Pruned Dynamic Programing Algorithm

Alice Cleynen, Michel Koskas|arXiv (Cornell University)|Apr 25, 2012
Genomics and Phylogenetic Studies参考文献 6被引用 4
一句话总结

本文提出了一种通用的 R 实现,将剪枝动态规划(PDP)算法适配于负二项分布模型下的 RNA-Seq 数据分段。通过估计离散度并使用 oracle 惩罚,该方法以近线性时间复杂度准确识别基因边界,在真实 RNA-Seq 数据上表现出色。

ABSTRACT

Genome annotation is an important issue in biology which has long been addressed with gene prediction methods and manual experiments requiring biological expertise. The expanding Next Generation Sequencing technologies and their enhanced precision allow a new approach to the domain: the segmentation of RNA-Seq data to determine gene boundaries. Because of its almost linear complexity, we propose to use the Pruned Dynamic Programming Algorithm, which performances had been acknowledged for CGH arrays, for Seq-experiment outputs. This requires the adaptation of the algorithm to the negative binomial distribution with which we model the data. We show that if the dispersion in the signal is known, the PDP algorithm can be used and we provide an estimator for this dispersion. We then propose to estimate the number of segments, which can be associated to coding or non-coding regions of the genome, using an oracle penalty. We illustrate the results of our approach on a real data-set and show its good performance. Our algorithm is available as an R package on the CRAN repository.

研究动机与目标

  • 为利用高效的计算方法解决 RNA-Seq 数据中基因边界检测的挑战。
  • 将此前用于 CGH 芯片的 PDP 算法适配至具有过度离散计数数据的 RNA-Seq 数据。
  • 使用负二项分布对 RNA-Seq 测序读数进行建模,以反映生物变异性。
  • 估计负二项分布模型下实现准确分段所必需的离散度参数。
  • 使用 oracle 惩罚确定对应于编码区与非编码区的最优分段数。

提出的方法

  • 通过使用负二项分布对读数计数进行建模,将剪枝动态规划算法适配于 RNA-Seq 数据。
  • 推导负二项分布模型中离散度参数的估计量,以实现对信号的准确表示。
  • 在已知离散度下应用 PDP 算法,实现分段的近线性时间复杂度。
  • 使用 oracle 惩罚估计分段数量,将分段数与生物学区域(编码区与非编码区)关联。
  • 在 R 包中实现完整分析流程,该包已发布于 CRAN,支持可重现性和广泛使用。

实验结果

研究问题

  • RQ1剪枝动态规划算法能否有效适配于具有过度离散计数的 RNA-Seq 数据?
  • RQ2如何在保持 PDP 效率的同时,利用负二项分布对 RNA-Seq 信号进行建模?
  • RQ3何种离散度估计量可实现在负二项分布模型下的可靠分段?
  • RQ4oracle 惩罚能否准确估计对应于生物学上有意义区域的分段数?
  • RQ5在真实数据上,该方法与现有方法相比在准确性和计算效率方面表现如何?

主要发现

  • 当在估计离散度的负二项分布模型下适配 PDP 算法时,可实现适合大规模 RNA-Seq 数据的近线性时间复杂度。
  • 所提出的离散度估计量能够可靠地对 RNA-Seq 读数中的生物变异性进行建模。
  • 使用 oracle 惩罚可实现对分段数的准确估计,结果与预期的编码区和非编码区一致。
  • 该方法在真实 RNA-Seq 数据集中表现出色,能正确识别基因边界。
  • 完整实现以 R 包形式发布于 CRAN,支持广泛可及性和可重现性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。