QUICK REVIEW

[论文解读] Efficient EM Training of Gaussian Mixtures with Missing Data

Olivier Delalleau, Aaron Courville|arXiv (Cornell University)|Sep 4, 2012

Bayesian Methods and Mixture Models参考文献 10被引用 20

一句话总结

本文提出一种基于生成树的算法，以加速含缺失数据的高斯混合模型（GMM）的期望最大化（EM）训练，显著降低计算成本。通过在缺失模式的最小生成树上进行矩阵更新，该方法实现了高达一个数量级的速度提升，同时利用条件期望实现有效的缺失值填补，相较于全局均值和最近邻填补方法，在与判别模型结合使用时表现更优。

ABSTRACT

In data-mining applications, we are frequently faced with a large fraction of missing entries in the data matrix, which is problematic for most discriminant machine learning algorithms. A solution that we explore in this paper is the use of a generative model (a mixture of Gaussians) to compute the conditional expectation of the missing variables given the observed variables. Since training a Gaussian mixture with many different patterns of missing values can be computationally very expensive, we introduce a spanning-tree based algorithm that significantly speeds up training in these conditions. We also observe that good results can be obtained by using the generative model to fill-in the missing values for a separate discriminant learning algorithm.

研究动机与目标

解决在高维数据集中处理缺失数据时，标准EM训练高斯混合模型（GMM）所面临的高计算成本问题。
开发一种可扩展且高效的训练算法，降低在多种缺失数据模式下EM更新的时间复杂度。
评估使用训练好的GMM中的条件期望填补方法作为判别模型预处理步骤的有效性。
证明对缺失数据分布进行生成建模可提升下游判别学习算法的性能。

提出的方法

提出一种基于生成树的算法，用于组织和分组缺失数据模式，从而在EM训练期间实现高效的矩阵计算。
在生成树上使用矩阵更新，以计算条件期望并更新参数，而无需对每个唯一缺失模式都进行大协方差矩阵的求逆。
应用EM算法学习具有完整协方差矩阵的高斯混合模型，假设缺失数据为随机缺失（MAR）。
利用从训练好的GMM中解析推导出的条件期望 $ \mathbb{E}[x_m \mid x_o] $ 对缺失值进行填补。
在包含缺失条目的完整数据矩阵上训练GMM，通过优化矩阵运算的E步和M步迭代更新。
将GMM填补方法与判别模型（神经网络和核岭回归）结合，以提升预测性能。

实验结果

研究问题

RQ1能否使高维数据集中具有多种缺失模式的高斯混合模型（GMM）的EM训练在计算上变得可行？
RQ2与简单填补方法相比，使用GMM中条件期望填补是否能提升下游判别模型的性能？
RQ3在不牺牲模型准确性的前提下，对缺失模式构建生成树结构能否降低EM更新的计算成本？
RQ4在预测误差方面，GMM填补方法与全局均值和最近邻填补方法相比表现如何？
RQ5将生成填补与判别学习结合，是否能获得优于直接使用GMM作为分类器的结果？

主要发现

所提出的基于生成树的算法在具有多种缺失模式的数据集上，将EM训练时间减少了高达一个数量级，相比标准EM。
在Abalone数据集上，基于训练好的GMM的条件期望填补方法在测试均方误差方面显著优于全局均值和最近邻填补方法。
当与神经网络和核岭回归等判别模型结合时，基于GMM的填补方法产生的测试误差低于直接使用GMM作为回归器的结果。
随着缺失值比例的增加，GMM填补方法的优势最为明显，此时最近邻方法因缺乏邻近的完整样本而性能下降。
该方法在高维场景下依然有效，而标准EM由于可能的缺失模式呈指数级增长而变得计算上不可行。
结果验证了在完整数据分布上训练的生成模型可为判别学习提供有用的归纳偏置，尤其在数据不完整时更为显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。