Skip to main content
QUICK REVIEW

[论文解读] Two-sample testing with Dirichlet mixtures

Eric F. Lock, David B. Dunson|arXiv (Cornell University)|Nov 1, 2013
Bayesian Methods and Mixture Models参考文献 18被引用 1
一句话总结

本文提出了一种基于共享核混合模型的狄利克雷混合先验的贝叶斯两样本检验方法,通过在变量间借用信息来改进高维分布比较。该方法在模型误设下保持一致性,并在通过置换检验控制第一类错误的前提下,在DNA甲基化数据中优于现有方法。

ABSTRACT

This article concerns testing for equality of distribution between groups. We focus on screening variables with shared distributional features such as common support, modes and patterns of skewness. We propose a Bayesian testing method using kernel mixtures, which improves performance by borrowing information across the different variables and groups through shared kernels and a common probability of group differences. The inclusion of shared kernels in a finite mixture, with Dirichlet priors on the weights, leads to a simple framework for testing that scales well for high-dimensional data. We provide closed asymptotic forms for the posterior probability of equivalence in two groups and prove consistency under model misspecification. The method is applied to DNA methylation array data from a breast cancer study, and compares favorably to competitors when type I error is estimated via permutation.

研究动机与目标

  • 开发一种可扩展的贝叶斯两样本检验框架,适用于具有共享分布特征(如支撑集、峰态和偏度)的高维数据。
  • 通过有限混合模型中变量间的共享核函数,借用信息以提升检验性能。
  • 确保在模型误设下后验等价概率的一致性。
  • 提供一种计算高效的算法,具有良好的维度扩展性,并保持受控的第一类错误率。

提出的方法

  • 使用跨变量共享核函数的有限混合核密度模型来建模组间特定分布。
  • 在混合成分权重上应用狄利克雷先验,以实现变量间的收缩与信息借用。
  • 在所有变量上实施共同的组间差异概率,以共享证据并提高估计稳定性。
  • 推导出两组间等价后验概率的闭式渐近近似。
  • 采用分层贝叶斯模型,其中核成分在变量间共享,但每组的混合权重独立估计。
  • 使用后验似然比检验分布等价性,即使在模型误设时也证明了其一致性。

实验结果

研究问题

  • RQ1通过在变量间借用信息,共享核混合模型是否能提升高维设置下的两样本检验性能?
  • RQ2所提出的方法在高维数据中,尤其是在模型误设下,如何控制第一类错误?
  • RQ3在所提出的狄利克雷混合框架下,后验等价概率的渐近行为如何?
  • RQ4在真实表观基因组数据上,该方法与现有竞争方法相比,在检验效能和错误控制方面表现如何?
  • RQ5使用共享核函数和跨变量的共同组间差异概率,是否能在真实分布未被完美捕捉时仍实现一致推断?

主要发现

  • 即使在模型误设下,该方法仍能实现后验等价概率的一致估计,确保推断的可靠性。
  • 后验等价概率的闭式渐近近似使得高维设置下的计算更加高效。
  • 在DNA甲基化芯片数据中,该方法在保持第一类错误受控(通过置换估计)的同时,优于现有竞争方法的检验效能。
  • 共享核函数的使用通过整合具有相似分布特征(如支撑集和偏度)的变量信息,提升了性能。
  • 在变量间引入共同的组间差异概率,增强了方法的稳健性并减少了高维检验中的过拟合。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。