Skip to main content
QUICK REVIEW

[論文レビュー] A Generic Implementation of the Pruned Dynamic Programing Algorithm

Alice Cleynen, Michel Koskas|arXiv (Cornell University)|Apr 25, 2012
Genomics and Phylogenetic Studies参考文献 6被引用数 4
ひとこと要約

この論文は、負の二項分布モデルに基づくRNA-Seqデータのセグメンテーションに適応された、一般化されたR実装によるPruned Dynamic Programming(PDP)アルゴリズムを提示する。分散を推定し、オракルペナルティを用いることで、近似的に線形の計算量で正確に遺伝子境界を同定する。実際のRNA-Seqデータにおいて優れた性能を示している。

ABSTRACT

Genome annotation is an important issue in biology which has long been addressed with gene prediction methods and manual experiments requiring biological expertise. The expanding Next Generation Sequencing technologies and their enhanced precision allow a new approach to the domain: the segmentation of RNA-Seq data to determine gene boundaries. Because of its almost linear complexity, we propose to use the Pruned Dynamic Programming Algorithm, which performances had been acknowledged for CGH arrays, for Seq-experiment outputs. This requires the adaptation of the algorithm to the negative binomial distribution with which we model the data. We show that if the dispersion in the signal is known, the PDP algorithm can be used and we provide an estimator for this dispersion. We then propose to estimate the number of segments, which can be associated to coding or non-coding regions of the genome, using an oracle penalty. We illustrate the results of our approach on a real data-set and show its good performance. Our algorithm is available as an R package on the CRAN repository.

研究の動機と目的

  • RNA-Seqデータにおける遺伝子境界検出の課題に、効率的な計算手法を用いて対処すること。
  • 従来のCGHアレイに用いられたPDPアルゴリズムを、過分散を示すカウントデータを有するRNA-Seqデータに適応すること。
  • 生物学的変動を考慮するために、RNA-Seqリードカウントを負の二項分布でモデル化すること。
  • 負の二項分布モデル下での正確なセグメンテーションに必要な分散パラメータを推定すること。
  • オラクルペナルティを用いて、コード領域と非コード領域に対応するセグメント数の最適な数を特定すること。

提案手法

  • リードカウントを負の二項分布でモデル化することで、PDPアルゴリズムをRNA-Seqデータに適応する。
  • 負の二項モデルにおける分散パラメータの推定器を導出することで、信号の正確な表現を可能にする。
  • 既知の分散を仮定したもとでPDPアルゴリズムを適用し、セグメンテーションにおいて近似的に線形時間計算量を達成する。
  • オラクルペナルティを用いてセグメント数を推定し、セグメント数を生物学的に意味のある領域(コード領域対非コード領域)に結びつける。
  • CRANに公開されたRパッケージとして、完全なパイプラインを実装し、再現可能性と利用可能性を確保する。

実験結果

リサーチクエスチョン

  • RQ1過分散カウントを有するRNA-Seqデータに、Pruned Dynamic Programmingアルゴリズムを効果的に適応できるか?
  • RQ2負の二項分布を用いてRNA-Seq信号をモデル化しつつ、PDPの効率性を維持できるか?
  • RQ3負の二項モデル下での信頼性の高いセグメンテーションを可能にする分散推定器は何か?
  • RQ4オラクルペナルティは、生物学的に意味のある領域に対応するセグメント数を正確に推定できるか?
  • RQ5実データにおいて、既存の手法と比較して、本手法の正確性と計算効率はどのように評価できるか?

主な発見

  • 分散を推定した負の二項分布モデルに適応されたPDPアルゴリズムは、大規模なRNA-Seqデータに適した近似的に線形の時間計算量を達成する。
  • 提案された分散推定器により、RNA-Seqリードカウントにおける生物学的変動の信頼性の高いモデル化が可能になる。
  • オラクルペナルティの使用により、セグメント数の推定が正確になり、期待されるコード領域と非コード領域と整合する。
  • 本手法は、実際のRNA-Seqデータセットにおいて優れた性能を示し、遺伝子境界を正しく同定する。
  • 完全な実装はCRANに公開されたRパッケージとして提供され、広範な利用可能性と再現可能性を実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。