Skip to main content
QUICK REVIEW

[论文解读] Variational Deep Embedding: An Unsupervised and Generative Approach to Clustering

Zhuxi Jiang, Yin Zheng|arXiv (Cornell University)|Nov 16, 2016
Generative Adversarial Networks and Image Synthesis参考文献 43被引用 87
一句话总结

本文提出变分深度嵌入(VaDE),一种新颖的无监督生成聚类框架,将变分自编码器(VAE)与高斯混合模型(GMM)先验相结合,联合学习深度表征与聚类分配。通过建模通过聚类选择、潜在嵌入采样和基于深度神经网络的解码来生成数据,VaDE 利用重参数化技巧的随机梯度变分贝叶斯方法优化证据下界(ELBO),实现了最先进水平的聚类性能,并在无监督条件下生成每个聚类的逼真样本。

ABSTRACT

Clustering is among the most fundamental tasks in computer vision and machine learning. In this paper, we propose Variational Deep Embedding (VaDE), a novel unsupervised generative clustering approach within the framework of Variational Auto-Encoder (VAE). Specifically, VaDE models the data generative procedure with a Gaussian Mixture Model (GMM) and a deep neural network (DNN): 1) the GMM picks a cluster; 2) from which a latent embedding is generated; 3) then the DNN decodes the latent embedding into observables. Inference in VaDE is done in a variational way: a different DNN is used to encode observables to latent embeddings, so that the evidence lower bound (ELBO) can be optimized using Stochastic Gradient Variational Bayes (SGVB) estimator and the reparameterization trick. Quantitative comparisons with strong baselines are included in this paper, and experimental results show that VaDE significantly outperforms the state-of-the-art clustering methods on 4 benchmarks from various modalities. Moreover, by VaDE's generative nature, we show its capability of generating highly realistic samples for any specified cluster, without using supervised information during training. Lastly, VaDE is a flexible and extensible framework for unsupervised generative clustering, more general mixture models than GMM can be easily plugged in.

研究动机与目标

  • 开发一种能够无监督地联合学习深度表征与聚类分配的聚类方法。
  • 赋予聚类模型生成能力,以生成基于聚类身份的逼真样本。
  • 克服现有深度聚类模型(如 DEC)缺乏生成建模与样本合成能力的局限性。
  • 通过在潜在码上使用高斯混合模型作为先验,建模数据生成过程,以提升聚类性能。
  • 证明所提出的框架在不同数据模态上具有泛化能力,并在聚类数量变化时保持鲁棒性。

提出的方法

  • VaDE 将数据生成建模为三步过程:(1) 从 GMM 先验中选择一个聚类,(2) 从该聚类特定的高斯分布中采样潜在嵌入,(3) 通过深度神经网络将潜在嵌入解码为可观测数据。
  • 通过使用随机梯度变分贝叶斯(SGVB)估计器最大化对数似然的证据下界(ELBO)来训练模型。
  • 使用独立的编码器网络将观测数据映射到潜在嵌入,通过重参数化技巧实现端到端训练。
  • GMM 先验取代 VAE 中的标准单高斯先验,使模型能够自然支持多个聚类,并建模聚类特定的数据分布。
  • 优化过程交替更新编码器和解码器网络,以同时提升表征学习与聚类性能。
  • 该框架支持灵活的先验设计,未来可扩展至其他混合模型,而不仅限于 GMM。

实验结果

研究问题

  • RQ1能否设计一种深度生成模型,实现无监督聚类,同时保持生成逼真样本的能力?
  • RQ2将 VAE 与 GMM 先验结合,相比标准 VAE 或基于自编码器的聚类,如何提升聚类性能?
  • RQ3所学习的潜在表征在在多大程度上保留了数据的内在结构,特别是与非生成模型(如 DEC)相比?
  • RQ4当聚类数量不等于真实类别数时,模型表现如何?
  • RQ5模型能否在无任何监督信号的情况下,仅根据特定聚类标签生成高质量、多样化的样本?

主要发现

  • VaDE 在五个不同数据模态的多样化基准测试中显著优于最先进聚类方法,展现出更优的聚类准确率。
  • 与 VAE 和 DEC 相比,VaDE 实现了更优的聚类结果,尤其在聚类内部区域,错误分类样本更少。
  • 使用 t-SNE 的可视化显示,VaDE 学习到的表征比 VAE 和 DEC 更具结构且更易分离,错误分类样本主要位于聚类边界处。
  • 当聚类数量设置低于真实类别数时(如 MNIST 上设为 7),VaDE 将视觉相似的数字(如 9 和 4,3 和 8)归为同一聚类。
  • 当聚类数量超过类别数时(如 MNIST 上设为 14),VaDE 发现子类结构,如细体与粗体的 0,直立与倾斜的 1。
  • VaDE 生成的样本高度逼真、多样化且受类别条件控制,尽管完全无监督训练,其性能与 InfoGAN 相当。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。