[论文解读] A latent factor model with a mixture of sparse and dense factors to model gene expression data with confounding effects
该论文提出了一种贝叶斯潜在因子模型,通过在因子载荷上使用两组分混合先验,联合识别基因表达数据中的稀疏基因簇和密集混杂因子。通过应用具有三参数贝塔先验的多级收缩方法,并自适应地建模稀疏性/密集性,该方法成功恢复了具有生物意义的基因模块和已知协变量,且通过eQTL关联分析得到验证。
One important problem in genome science is to determine sets of co-regulated genes based on measurements of gene expression levels across samples, where the quantification of expression levels includes substantial technical and biological noise. To address this problem, we developed a Bayesian sparse latent factor model that uses a three parameter beta prior to flexibly model shrinkage in the loading matrix. By applying three layers of shrinkage to the loading matrix (global, factor-specific, and element-wise), this model has non-parametric properties in that it estimates the appropriate number of factors from the data. We added a two-component mixture to model each factor loading as being generated from either a sparse or a dense mixture component; this allows dense factors that capture confounding noise, and sparse factors that capture local gene interactions. We developed two statistics to quantify the stability of the recovered matrices for both sparse and dense matrices. We tested our model on simulated data and found that we successfully recovered the true latent structure as compared to related models. We applied our model to a large gene expression study and found that we recovered known covariates and small groups of co-regulated genes. We validated these gene subsets by testing for associations between genotype data and these latent factors, and we found a substantial number of biologically important genetic regulators for the recovered gene subsets.
研究动机与目标
- 解决大规模基因表达数据中的混杂效应(如批次效应和人群结构)问题。
- 在不预先知道因子数量的前提下,联合建模稀疏基因簇(共调控基因)与密集混杂因子。
- 开发一种灵活的非参数贝叶斯模型,自动估计合适的因子数量,并区分稀疏与密集的载荷模式。
- 通过保留局部基因共调控信号并控制噪声,提升对多效性eQTL的检测能力。
- 利用新颖的稳定性度量,提供基因表达矩阵的稳定且可解释的分解,分别针对稀疏与密集成分。
提出的方法
- 使用三参数贝塔(TPB)先验,对载荷矩阵施加全局、因子特异性和元素级的收缩。
- 对每个因子载荷应用两组分混合模型,其中一组分诱导稀疏性,另一组分不诱导,从而实现稀疏基因簇与密集混杂因子的自动区分。
- 采用具有共轭先验的层次贝叶斯框架,通过变分期望-最大化(VEM)实现高效的后验推断。
- 通过参数a, b, c, d, e, f和τk实现多级收缩,自适应地正则化载荷与因子方差。
- 利用广义逆高斯分布及其他共轭分布的众数,推导出所有参数(包括Λkj, θkj, φk, δkj, τk, 和π)的闭式最大后验(MAP)估计。
- 引入两种稳定性统计量,用于评估恢复的稀疏与密集因子矩阵的可靠性。
实验结果
研究问题
- RQ1贝叶斯潜在因子模型能否在高维基因表达数据中联合识别稀疏基因簇与密集混杂因子?
- RQ2所提出的载荷混合先验是否能有效区分具有生物意义的共调控基因群与技术噪声?
- RQ3在存在混杂效应的情况下,该模型与现有方法相比,能否更准确地恢复真实的潜在结构?
- RQ4通过遗传关联分析(eQTL)验证,恢复的潜在因子在多大程度上具有生物学可解释性?
- RQ5该模型能否利用非参数收缩特性,在无需预设因子数量的情况下估计出相关因子的实际数量?
主要发现
- 在模拟数据中,该模型成功恢复了真实的潜在结构,且在识别稀疏与密集因子方面优于相关模型。
- 在真实基因表达数据中,该模型成功恢复了已知的生物学协变量(如年龄、性别和批次效应),证实其建模混杂因子的能力。
- 该方法识别出的小型、具有生物一致性的基因簇在已知功能通路与调控网络中显著富集。
- 在基因分型数据与恢复的潜在因子之间检测到大量eQTL关联,验证了其生物学相关性。
- 稳定性度量在多次运行和不同数据子集上均表现出稳健性,能可靠识别一致的稀疏与密集成分。
- 该模型在保留稀疏信号的同时有效建模密集混杂因子,其性能优于可能破坏生物学相关结构的两步PCA基归一化方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。