Skip to main content
QUICK REVIEW

[論文レビュー] A novel method for the estimation of diversity in viral populations from next generation sequencing data

Jean Paulo Lopes Zukurov, Sieberth N. Brito|arXiv (Cornell University)|May 8, 2014
Evolution and Genetic Dynamics参考文献 15被引用数 1
ひとこと要約

この論文では、SOLiDのような低エラー率で深さのあるカバレッジを持つプラットフォームを活用して、短鎖読み取りNGSデータからのウイルス遺伝的多様性を推定するベイジアン手法Tandenを紹介する。各遺伝座のアレル頻度を多項分布でモデル化し、事前情報によって信号とノイズを区別することで、頻度ベースの手法に比べて多様性推定の正確性が向上する。

ABSTRACT

In this paper we propose a method and discuss its computational implementation as an integrated tool for the analysis of viral genetic diversity on data generated by high-throughput sequencing. Most methods for viral diversity estimation proposed so far are intended to take benefit of the longer reads produced by some NGS platforms in order to estimate a population of haplotypes. Our goal here is to take advantage of distinct virtues of a certain kind of NGS platform - the platform SOLiD (Life Technologies) is an example - that has not received much attention due to the short length of its reads, which renders haplotype estimation very difficult. However, this kind of platform has a very low error rate and extremely deep coverage per site and our method is designed to take advantage of these characteristics. We propose to measure the populational genetic diversity through a family of multinomial probability distributions indexed by the sites of the virus genome, each one representing the populational distribution of the diversity per site. The implementation of the method focuses on two main optimization strategies: a read mapping/alignment procedure that aims at the recovery of the maximum possible number of short-reads; the estimation of the multinomial parameters through a Bayesian approach, which, unlike simple frequency counting, allows one to take into account the prior information of the control population within the inference of a posterior experimental condition and provides a natural way to separate signal from noise, since it automatically furnishes Bayesian confidence intervals. The methods described in this paper have been implemented as an integrated tool called Tanden (Tool for Analysis of Diversity in Viral Populations).

研究の動機と目的

  • 短鎖読み取りNGSデータ、特に低エラー率だが短いリードを有するSOLiDのようなプラットフォームからのウイルス遺伝的多様性推定の課題に対処すること。
  • 長鎖リードに依存する既存のハプロタイプベースの手法の限界を克服し、短いが高カバレッジのデータに対して効果的に機能すること。
  • 深さのあるカバレッジと低エラー率を活用して、多様性推定の正確性を向上させること。
  • 制御集団からの事前知識を推定プロセスに統合し、信号対ノイズの分離を強化すること。
  • ウイルス集団多様性解析のためのユーザーフレンドリーで統合されたツール(Tanden)を提供すること。

提案手法

  • 各ゲノム部位ごとに多項確率分布の族を用いて、アレル頻度分布をモデル化することで、ウイルス遺伝的多様性を表現する。
  • リード長の短さを補うために、最大の数の短鎖リードを回復できるように最適化されたリードマッピング/アラインメント戦略を実装する。
  • 制御集団からの事前情報を取り入れることで推定を向上させるベイジアンフレームワークを用いて多項分布パラメータを推定する。
  • 事後分布とベイジアン信頼区間を生成することで、信号とノイズを自然に分離する。
  • 階層的モデルを適用し、部位間で情報の借用を可能にしつつ、部位固有の多様性推定を維持する。
  • NGSデータからのウイルス多様性解析のエンドツーエンド処理を統合したパイプラインとしてTandenソフトウェアツールを開発する。

実験結果

リサーチクエスチョン

  • RQ1単純な頻度カウントに比べて、ベイジアンアプローチは短鎖読み取りNGSデータにおけるウイルス多様性推定をどれほど向上させられるか?
  • RQ2SOLiDのようなプラットフォームの深さのあるカバレッジと低エラー率を、リード長が短いという制約にもかかわらず、集団多様性推定にどれほど効果的に活用できるか?
  • RQ3制御集団からの事前知識を統合することで、多様性推定の正確性はどの程度向上するか?
  • RQ4ベイジアン信頼区間は、ウイルス集団における真の生物学的変異とシークエンシングアーティファクトを信頼性高く区別できるか?
  • RQ5感度と特異度の観点から、提案手法は既存のハプロタイプベースの手法と比べてどの程度優れているか?

主な発見

  • Tandenにおけるベイジアンアプローチにより、事前知識を組み込み、低カバレッジ領域のノイズを低減することで、ウイルス多様性推定の正確性が向上する。
  • 本手法は、SOLiDのような短鎖リードプラットフォームの深さのあるカバレッジと低エラー率を効果的に活用でき、リード長が短いという制約にもかかわらず、多様性解析に適していることを示す。
  • ベイジアン信頼区間は、真の生物学的変異とシークエンシングアーティファクトを自然かつ信頼性高く区別する手段を提供する。
  • リードマッピング戦略により、短鎖リードの回復を最大化でき、データ利用効率が向上し、パラメータ推定の精度が向上する。
  • Tandenは、多様性解析の全ステップを1つのツールに統合し、ウイルス集団研究における使いやすさと再現性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。