Skip to main content
QUICK REVIEW

[論文レビュー] A latent factor model with a mixture of sparse and dense factors to model gene expression data with confounding effects

Chuan Gao, Christopher D. Brown|arXiv (Cornell University)|Oct 17, 2013
Gene expression and cancer classification参考文献 46被引用数 24
ひとこと要約

本稿では、要因負荷に二成分混合事前分布を適用することで、スパースな遺伝子クラスタと密な交絡要因を同時に同定するベイジアン潜在要因モデルを提案する。三パラメータベータ事前分布によるマルチレベルの縮小と、スパarsity/密度の適応的モデリングにより、生物学的に意味のある遺伝子モジュールと既知の共変量を効果的に回復し、eQTL連関による検証を実施した。

ABSTRACT

One important problem in genome science is to determine sets of co-regulated genes based on measurements of gene expression levels across samples, where the quantification of expression levels includes substantial technical and biological noise. To address this problem, we developed a Bayesian sparse latent factor model that uses a three parameter beta prior to flexibly model shrinkage in the loading matrix. By applying three layers of shrinkage to the loading matrix (global, factor-specific, and element-wise), this model has non-parametric properties in that it estimates the appropriate number of factors from the data. We added a two-component mixture to model each factor loading as being generated from either a sparse or a dense mixture component; this allows dense factors that capture confounding noise, and sparse factors that capture local gene interactions. We developed two statistics to quantify the stability of the recovered matrices for both sparse and dense matrices. We tested our model on simulated data and found that we successfully recovered the true latent structure as compared to related models. We applied our model to a large gene expression study and found that we recovered known covariates and small groups of co-regulated genes. We validated these gene subsets by testing for associations between genotype data and these latent factors, and we found a substantial number of biologically important genetic regulators for the recovered gene subsets.

研究の動機と目的

  • 大規模な遺伝子発現データにおけるバッチ効果や集団構造といった交絡効果に対処すること。
  • 要因の数に関する事前知識がなくとも、スパースな遺伝子クラスタ(共同制御遺伝子)と密な交絡要因を同時にモデリングすること。
  • 適切な要因数を推定し、スパースおよび密な負荷パターンを区別できる柔軟で非パラメトリックなベイジアンモデルの開発。
  • 局所的な遺伝子共同制御シグナルを保持しつつノイズを制御することで、多効果的eQTLの検出を向上させること。
  • スパースおよび密成分に対して新しい安定性指標を用いて、遺伝子発現行列の安定的かつ解釈可能な分解を提供すること。

提案手法

  • 要因負荷行列に三パラメータベータ(TPB)事前分布を適用し、グローバル、要因固有、要素ごとの縮小を誘導する。
  • 各要因負荷に二成分混合モデルを適用し、一方の成分がスパarsityを誘導し、他方が誘導しないようにすることで、スパースな遺伝子クラスタと密な交絡要因の自動的区別を可能にする。
  • 変分期待最大化(VEM)を用いた効率的な後立確率推論が可能な共役事前分布を用いた階層ベイジアンフレームワークを採用する。
  • パラメータa, b, c, d, e, f, およびτkを用いて、負荷と要因分散の適応的正則化を実現するマルチレベルの縮小を導入する。
  • 一般化逆ガウス分布および他の共役分布のモードを用いて、Λkj, θkj, φk, δkj, τk, およびπを含むすべてのパラメータの閉形式MAP推定値を導出する。
  • 回復されたスパースおよび密な要因行列の信頼性を評価するための2つの安定性統計量を導入する。

実験結果

リサーチクエスチョン

  • RQ1スパースな遺伝子クラスタと密な交絡要因を高次元の遺伝子発現データで同時に同定できるベイジアン潜在要因モデルは存在するか?
  • RQ2提案された負荷に向けた混合事前分布は、生物学的に意味のある共同制御遺伝子群と技術的ノイズを効果的に区別できるか?
  • RQ3交絡効果が存在する状況でも、既存の手法と比較して真の潜在構造をどの程度正確に回復できるか?
  • RQ4回復された潜在要因は、遺伝子連関解析(eQTL)によってどの程度妥当性を確認できるか?
  • RQ5非パラメトリックな縮小特性を用いて、事前に要因数を指定せずに関連する要因数を推定できるか?

主な発見

  • シミュレーションデータにおいて、本モデルは真の潜在構造を効果的に回復し、スパースおよび密な要因の同定において関連モデルを上回った。
  • 実際の遺伝子発現データにおいて、年齢、性別、バッチ効果といった既知の生物学的共変量を回復した。これにより、交絡要因のモデリング能力が裏付けられた。
  • 機能的経路および調節ネットワークに富んだ、小さな生物学的に整合性のある遺伝子クラスタが同定された。
  • 遺伝子型データと回復された潜在要因との間に多数のeQTL連関が検出され、それらの生物学的妥当性が裏付けられた。
  • 安定性指標により、複数回の実行およびデータサブセットにおいて一貫したスパースおよび密成分の同定が可能であることが示された。
  • 本モデルは、スパース信号を保持しつつ密な交絡要因をモデリングでき、生物学的関連構造を損なうおそれがある二段階のPCAベースの正規化手法を上回る性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。