Skip to main content
QUICK REVIEW

[論文レビュー] Haplotype-based variant detection from short-read sequencing

Erik Garrison, Gábor Marth|arXiv (Cornell University)|Jul 17, 2012
Gene expression and cancer classification参考文献 23被引用数 4,047
ひとこと要約

本論文は、短鎖リードシーケンシングからハプロタイプを検出するベイズフレームワークを開発し、マルチアリル位置と非均一コピー数を扱う FreeBayes に実装した。

ABSTRACT

The direct detection of haplotypes from short-read DNA sequencing data requires changes to existing small-variant detection methods. Here, we develop a Bayesian statistical framework which is capable of modeling multiallelic loci in sets of individuals with non-uniform copy number. We then describe our implementation of this framework in a haplotype-based variant detector, FreeBayes.

研究の動機と目的

  • シーケンストレースからの短距離位相情報を活用するハプロタイプベースの変異検出を動機づける。
  • サンプル間での多アリル遺伝子座と非一様なコピー数に一般化する。
  • データ尤度と事前分布を組み込んだ P(G1,...,Gn|R1,...,Rn) を計算するベイズモデルを開発する。
  • ハプロタイプベースの検出器(FreeBayes)を実装し、事後品質指標を提供する。
  • ローカルインプリテーションの概念を用いて長いハプロタイプの直接検出を可能にし、遺伝型推定の精度を向上させる。

提案手法

  • 遺伝子座でコピー数が mi、合計コピー数が M、頻度 fi をもつ K 個のアレルを定義し、n 個のサンプルを定義する。
  • データ尤度 P(Ri|Gi) と Ewensのサンプリング公式を用いた母集団等位遺伝子頻度に基づく事前分布を組み込み、P(G1,...,Gn|R1,...,Rn) へベイズの定理を拡張する。
  • リードから観察された対立遺伝子を考慮し、塩基品質とマッピング品質に調整した多項分布サンプリングを用いて P(Ri|Gi) を計算する。
  • 事前分布を P(G1,...,Gn|f1,...,fk) および P(f1,...,fk) に分解し、位相なし遺伝型に調整し、等位遺伝子頻度を用いた多項係数を用いる。
  • ニュートラルな変異-浮動モデルのパラメータ θ の下で P(f1,...,fk) を近似するため Ewens のサンプリング公式を適用する。
  • 参照配列をアンカーとして、動的に決定されたウィンドウ内にハプロタイプ観察を組み立て、最大事後確率解へ勾配法で P(G1,...,Gn|R1,...,Rn) を計算する。
  • 出力には位点多様性確率 P(K>1|R1,...,Rn) および個々の周辺遺伝型尤度 P(Gj|Ri,...,Rn) を含める。

実験結果

リサーチクエスチョン

  • RQ1多アリル遺伝子座と非一様コピー数をベイズ的ハプロタイプ枠組み内で変異検出のためにモデル化できるか。
  • RQ2母集団レベルの事前分布と位相情報を組み込むことが、ショートリードからのハプロタイプベースの変異検出を改善するか。
  • RQ3局所的なハプロタイプ観察を組み立てることによって、短いリードデータから長いハプロタイプを直接検出できるか。
  • RQ4塩基品質とマッピング品質を用いて、方法が真のハプロタイプとシーケンス誤差を区別する効果はどれくらいか。
  • RQ5本法によって得られる品質出力(多型性確率および周辺遺伝型尤度)は何か。

主な発見

  • ハプロタイプベースの変異検出のために、多アリル遺伝子座と非一様コピー数をモデル化するベイズフレームワークが開発されている。
  • このアプローチは、位相なし遺伝型を扱うように事前と尤度の計算を一般化し、等位遺伝子頻度の事前分布を推定するために Ewens のサンプリング公式を使用する。
  • ハプロタイプ検出器(FreeBayes)は動的ウィンドウ内でハプロタイプ観察を組み立て、最大後方確率推定を見つけるために勾配上昇法を用いる。
  • この方法は、位点の多型性の事後確率 P(K>1|R1,...,Rn) を生み出し、個々の周辺遺伝型尤度を提供する。
  • 局所的なインプリテーション様の洗練を組み込むことで、純粋な最尤推定法に比べて生データの遺伝型品質を向上させる。
  • このフレームワークは、統一されたベイズ文脈内で多アリルハプロタイプをモデリングすることにより、ショートリードシーケンシングデータから長いハプロタイプを直接検出できるようにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。