[论文解读] Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders
本论文提出高斯混合变分自编码器(GMVAE),在VAE框架内进行无监督聚类,分析过度正则化问题,应用最小信息约束以缓解,同时在合成数据、MNIST和SVHN上展示可解释的潜在聚类并具竞争力的无监督聚类表现。
We study a variant of the variational autoencoder model (VAE) with a Gaussian mixture as a prior distribution, with the goal of performing unsupervised clustering through deep generative models. We observe that the known problem of over-regularisation that has been shown to arise in regular VAEs also manifests itself in our model and leads to cluster degeneracy. We show that a heuristic called minimum information constraint that has been shown to mitigate this effect in VAEs can also be applied to improve unsupervised clustering performance with our model. Furthermore we analyse the effect of this heuristic and provide an intuition of the various processes with the help of visualizations. Finally, we demonstrate the performance of our model on synthetic data, MNIST and SVHN, showing that the obtained clusters are distinct, interpretable and result in achieving competitive performance on unsupervised clustering to the state-of-the-art results.
研究动机与目标
- 在深度生成模型中使用多模态潜在先验来激发无监督聚类。
- 在 VAE 中提出高斯混合先验,并推导可推断的 ELBO。
- 通过最小信息约束识别并缓解 GMVAE 中的过度正则化。
- 证明 GMVAE 在图像数据集上学习到可解释的、鲜明的潜在聚类。
提出的方法
- 定义一个生成模型,其中隐变量 x 按条件 w 从高斯混合中采样,离散聚类 z 选择一个混合分量。
- 使用辨识模型近似后验,采用因子化的变分族,并推导包含对 z 的条件先验项的 ELBO。
- 使用 pβ(z|x,w 计算 z 的后验,并在不对离散变量采样的情况下估计条件先验项,从而实现标准的反向传播。
- 通过应用 Kingma 等人 2016 年风格的修改 ELBO,限制 z-prior 项的阈值 λ,以在正则化启动前促进聚类的分散。
- 使用蒙特卡洛估计进行评估,并显示增加蒙特卡洛样本数 M 与聚类数 K 可提高稳定性和性能。
- 通过展示不同的 z 分量对应数字、以及 w 调制 MNIST/SVHN 的风格,来证明生成能力。
实验结果
研究问题
- RQ1具有高斯混合先验的 GMVAE 能否在 VAE 框架内实现无监督聚类?
- RQ2过度正则化如何影响 GMVAE 的聚类?最小信息约束能否缓解?
- RQ3GMVAE 的聚类是否对应于图像数据(MNIST/SVHN)中有意义且可解释的因子,而不仅仅是合成示例?
主要发现
| 方法 | K | 最佳运行 | 平均运行 |
|---|---|---|---|
| CatGAN (Springenberg, 2015) | 20 | 90.30 | - |
| AAE (Makhzani et al., 2015) | 16 | - | 90.45 ± 2.05 |
| AAE (Makhzani et al., 2015) | 30 | - | 95.90 ± 1.13 |
| DEC (Xie et al., 2015) | 10 | 84.30 | - |
| GMVAE (M = 1) | 10 | 87.31 | 77.78 ± 5.75 |
| GMVAE (M = 10) | 10 | 88.54 | 82.31 ± 3.75 |
| GMVAE (M = 1) | 16 | 89.01 | 85.09 ± 1.99 |
| GMVAE (M = 10) | 16 | 96.92 | 87.82 ± 5.33 |
| GMVAE (M = 1) | 30 | 95.84 | 92.77 ± 1.60 |
| GMVAE (M = 10) | 30 | 93.22 | 89.27 ± 2.50 |
- GMVAE 能在 MNIST 和 SVHN 上学习到独特且可解释的聚类,达到具有竞争力的无监督聚类表现。
- 若不进行缓解,z-prior 项会导致聚类退化,使所有数据聚集到一个大簇中。
- 一种 Kingma 等人风格的对 ELBO 的修改,可限制 z-prior 项,防止早期聚类合并并改善聚类分散。
- 增加聚类数 K 与蒙特卡洛样本数 M 可提升鲁棒性和聚类准确性。
- GMVAE 的潜在分量与数字对齐,其中 z 控制类别,w 影响风格,实现可解释的生成。
- 在 MNIST 上,当 K=10 时,GMVAE 在无监督分类准确度方面与最先进方法相比具有竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。