QUICK REVIEW

[论文解读] Adversarial Autoencoders

Alireza Makhzani, Jonathon Shlens|arXiv (Cornell University)|Nov 18, 2015

Generative Adversarial Networks and Image Synthesis参考文献 13被引用 314

一句话总结

本文提出了对抗自编码器（AAE），一种结合变分推断与生成对抗网络（GANs）的生成模型，旨在使潜在码的聚合后验分布匹配任意先验分布。通过训练编码器生成能欺骗判别器、使其将潜在码误认为来自先验分布的真实样本的潜在码，AAE 实现了有意义的生成，实现了半监督分类的竞争力表现，并在 MNIST、SVHN 和 Toronto Face 数据集上实现了解耦表征学习与聚类。

ABSTRACT

In this paper, we propose the "adversarial autoencoder" (AAE), which is a probabilistic autoencoder that uses the recently proposed generative adversarial networks (GAN) to perform variational inference by matching the aggregated posterior of the hidden code vector of the autoencoder with an arbitrary prior distribution. Matching the aggregated posterior to the prior ensures that generating from any part of prior space results in meaningful samples. As a result, the decoder of the adversarial autoencoder learns a deep generative model that maps the imposed prior to the data distribution. We show how the adversarial autoencoder can be used in applications such as semi-supervised classification, disentangling style and content of images, unsupervised clustering, dimensionality reduction and data visualization. We performed experiments on MNIST, Street View House Numbers and Toronto Face datasets and show that adversarial autoencoders achieve competitive results in generative modeling and semi-supervised classification tasks.

研究动机与目标

开发一种可扩展的深度生成模型，避免传统模型（如 RBM 和 DBN）中基于 MCMC 训练的采样低效问题。
通过对抗训练弥补变分自编码器（VAE）的局限，更精确地匹配聚合后验分布与先验分布。
通过反向传播实现端到端训练，避免深度生成模型中对 MCMC 采样的依赖。
展示 AAE 在半监督学习、解耦表征学习、聚类与可视化中的实用性。
证明对抗正则化可防止自编码器嵌入中的流形断裂，从而生成更平滑、更具语义意义的潜在空间。

提出的方法

AAE 使用标准自编码器结构，通过重建损失最小化输入与重构数据之间的差异。
额外训练一个判别器网络，用于区分编码器生成的潜在码与预设先验分布的样本。
通过对抗方式训练编码器，使其生成的潜在码能被判别器分类为来自先验分布的真实样本，从而有效使聚合后验分布匹配先验分布。
联合训练交替优化重建损失与对抗损失，使用随机梯度下降。
在半监督与聚类任务中，模型引入聚类头表征与风格表征，并通过正则化损失惩罚聚类中心之间距离过近的情况。
在高维可视化中，模型使用线性变换将学习到的 10D 表征映射至 2D 以实现可视化，同时保持风格成分的高斯分布特性。

实验结果

研究问题

RQ1能否使用对抗训练将自编码器的聚合后验分布正则化为匹配任意先验分布？
RQ2与现有模型相比，AAE 在半监督分类任务中是否表现出竞争力？
RQ3AAE 是否能学习图像数据中内容与风格的解耦表征？
RQ4对抗正则化是否能防止自编码器嵌入中的流形断裂，从而生成更平滑、更具语义意义的潜在空间？
RQ5AAE 是否能有效用于无监督聚类与降维，并实现具有语义意义的聚类分离？

主要发现

AAE 在 MNIST 与 Toronto Face 数据集上实现了具有竞争力的测试似然，证明了其强大的生成建模性能。
在 MNIST 数据集中使用 100 个标签时，AAE 的半监督分类错误率为 3.90%，优于基线 AAE（采用拼接风格与标签表征的模型）。
在 MNIST 数据集中使用 100 个标签时，AAE 在 2D 空间中的半监督分类错误率为 4.20%，在仅 100 个标签的 2D 设置下错误率为 6.08%，表现出对标签稀缺的鲁棒性。
在 MNIST 的无监督聚类任务中（20 个聚类），AAE 成功将数字 '1' 分离为笔直与倾斜两种变体，将数字 '6' 分为基于倾斜角度的三类，并将数字 '2' 分离为带环与不带环的变体。
AAE 学习到的 10 维风格表征近似服从高斯分布，经可视化与分布分析验证。
通过鼓励相似图像具有相似潜在码，该模型有效防止了流形断裂，使潜在空间中的表征更平滑、更一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。