Skip to main content
QUICK REVIEW

[論文レビュー] Joint discovery of haplotype blocks and complex trait associations from SNP sequences

Nebojša Jojić, Vladimir Jojic|arXiv (Cornell University)|Jul 7, 2004
Genetic Mapping and Diversity in Plants and Animals参考文献 3被引用数 8
ひとこと要約

本論文は、フェーズ情報の欠落や欠損データの問題を克服し、未フェーズ化されたSNPデータからハプロタイプブロック構造と複雑形態関連性を同時に推定するデータ駆動型階層的統計モデルを提案する。この手法は、染色体5q31のSNPデータを用いてクローン病を80%の検出精度で同定する。

ABSTRACT

Haplotypes, the global patterns of DNA sequence variation, have important implications for identifying complex traits. Recently, blocks of limited haplotype diversity have been discovered in human chromosomes, intensifying the research on modelling the block structure as well as the transitions or co-occurrence of the alleles in these blocks as a way to compress the variability and infer the associations more robustly. The haplotype block structure analysis is typically complicated by the fact that the phase information for each SNP is missing, i.e., the observed allele pairs are not given in a consistent order across the sequence. The techniques for circumventing this require additional information, such as family data, or a more complex sequencing procedure. In this paper we present a hierarchical statistical model and the associated learning and inference algorithms that simultaneously deal with the allele ambiguity per locus, missing data, block estimation, and the complex trait association. While the block structure may differ from the structures inferred by other methods, which use the pedigree information or previously known alleles, the parameters we estimate, including the learned block structure and the estimated block transitions per locus, define a good model of variability in the set. The method is completely data-driven and can detect Chron's disease from the SNP data taken from the human chromosome 5q31 with the detection rate of 80% and a small error variance.

研究の動機と目的

  • フェーズ情報が欠落している未フェーズ化されたSNPデータからハプロタイプブロック構造と形態関連性を推定する課題に対処すること。
  • 家系データや既知のアレル情報に依存せずに、アレルの曖昧性、欠損データ、ブロック推定、形態関連性の同時処理が可能な手法を開発すること。
  • 家系データや既知のアレル情報に依存しない完全にデータ駆動型のアプローチを構築し、ハプロタイプブロックの遷移とそれらの複雑形態への関連性を強固にモデル化すること。
  • 全ゲノム研究におけるSNP配列を用いた複雑形態関連性検出の正確性と頑健性を向上させること。

提案手法

  • 本手法は、非観察されたハプロタイプフェーズとブロック境界を表す潜在変数を統合した階層的統計モデルを採用する。
  • 学習および推論アルゴリズムを用いて、未フェーズ化されたSNPデータから、同時にブロック構造、ブロック内でのアレルの遷移、および形態関連性を推定する。
  • ハプロタイプフェーズを確率的枠組み内の隠れ変数として扱うことで、欠損データとフェーズの曖昧性に対処する。
  • 各遺伝子座ごとにブロック遷移をモデル化し、ブロック間でのアレルの共起パターンを捉えて遺伝的多様性を圧縮する。
  • 本アプローチは完全にデータ駆動型であり、家族データや既知のリファレンスアレルといった外部情報に依存しない。

実験結果

リサーチクエスチョン

  • RQ1フェーズ情報が事前に与えられない未フェーズ化されたSNPデータから、ハプロタイプブロック構造を信頼性高く推定する方法は何か?
  • RQ2ブロック構造と形態関連性の共同モデリングが、複雑な疾患関連性の同定にどの程度寄与するか?
  • RQ3完全にデータ駆動型のアプローチは、家系データやリファレンスデータを必要とする手法を上回る性能を示せるか?
  • RQ4ブロック遷移をモデル化することで、複雑形態関連性検出の正確性にどのような影響を与えるか?

主な発見

  • 本手法は、ヒト染色体5q31のSNPデータからクローン病を80%の検出率で同定することに成功した。
  • 誤差分散が低く抑えられており、フェーズ情報が欠損している未フェーズ化されたデータに対しても、形態関連性推定の精度が非常に高いことを示している。
  • 推定されたブロック構造は、家系データやリファレンスアレル依存の手法で得られるものとは異なり、遺伝的多様性の別種の妥当な表現であることを示唆している。
  • ブロック構造と形態関連性の同時推定により、SNP配列に内在する複雑なパターンを捉える強固な遺伝的多様性モデルが構築された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。