Skip to main content
QUICK REVIEW

[论文解读] Adversarial Feature Learning

Jeff Donahue, Philipp Krähenbühl|arXiv (Cornell University)|May 31, 2016
Generative Adversarial Networks and Image Synthesis参考文献 31被引用 721
一句话总结

BiGANs 通过在训练生成器和判别器的同时训练一个编码器,学习到对 GAN 的逆映射,从而为下游任务提供有用的无监督特征。

ABSTRACT

The ability of the Generative Adversarial Networks (GANs) framework to learn generative models mapping from simple latent distributions to arbitrarily complex data distributions has been demonstrated empirically, with compelling results showing that the latent space of such generators captures semantic variation in the data distribution. Intuitively, models trained to predict these semantic latent representations given data may serve as useful feature representations for auxiliary problems where semantics are relevant. However, in their existing form, GANs have no means of learning the inverse mapping -- projecting data back into the latent space. We propose Bidirectional Generative Adversarial Networks (BiGANs) as a means of learning this inverse mapping, and demonstrate that the resulting learned feature representation is useful for auxiliary supervised discrimination tasks, competitive with contemporary approaches to unsupervised and self-supervised feature learning.

研究动机与目标

  • 通过学习数据到潜在空间的逆映射,激发基于 GAN 的无监督特征学习。
  • 引入 Bidirectional Generative Adversarial Networks (BiGANs),其包含将数据映射到潜在编码的编码器。
  • 从理论上分析最优判别器、生成器和编码器,并展示反演特性。
  • 在 MNIST 和 ImageNet 上经验性评估 BiGANs,以评估学习特征向有监督任务转移的可迁移性。

提出的方法

  • 通过添加一个将数据 x 映射到潜在变量 z 的编码器 E 来扩展 GAN。
  • 修改判别器以评估来自真实数据的对 (x, z) 与来自生成数据的对 (G(z), z)。
  • 优化一个极小极大目标 V(D,E,G),在 D 上极大,在 E,G 上极小(方程 3)。
  • 证明在最优时,P_EX 等于 P_GZ,且 E 和 G 在几乎处处上互为反函数(定理 1 和 2)。
  • 在最优设定下,表明 BiGANs 对应于一个 0-1 风格的自编码器损失(定理 3)。
  • 通过 g_X 和 g_Z 将 BiGAN 泛化以处理不同的输入/输出空间(第 3.5 节)。
  • 使用标准的交替梯度方法以及更实用的“逆目标”来获得更强梯度来训练 BiGANs(第 3.4 节)。

实验结果

研究问题

  • RQ1BiGANs 能否通过联合训练一个编码器、生成器和判别器来学习对 GAN 的有意义的逆映射?
  • RQ2BiGANs 是否产生对下游有监督任务有用的潜在表示,而无需标签数据?
  • RQ3关于最优性及编码器与生成器的反演性,BiGANs 的理论性质是什么?
  • RQ4在真实世界的图像数据集上,BiGANs 与其他无监督/自监督特征学习方法相比如何?
  • RQ5BiGAN 框架如何扩展到更高分辨率的输入和不同的特征空间?

主要发现

方法1NN 精度 (%) MNIST(置换不变)
BiGAN97.39
D (Discriminator only)97.30
LR (Latent Regressor)97.44
JLR (Joint Latent Regressor)97.13
AE (ℓ2)97.58
AE (ℓ1)97.63
  • BiGAN 目标导出 P_EX 与 P_GZ 的联合分布之间的 Jensen–Shannon 散度,全球最优点在 P_EX = P_GZ。
  • 在最优时,编码器和生成器几乎处处互为反函数(数据支撑下的 G(E(x)) = x,潜在支撑下的 E(G(z)) = z)。
  • BiGAN 编码器学习的特征作为语义属性的潜在表示,在用途上类似于 ℓ0 自编码器,但不假设数据结构。
  • 在置换不变的 MNIST 上,BiGAN 特征在 1NN 分类中的准确率与基线(如潜在回归器和自编码器)相比具有竞争力(97.39% 对 97.30–97.63% 的变体)。
  • 在 ImageNet 上,BiGAN 作为预训练特征提取器时,转移性能具有竞争力,并在学习到的滤波器与重建方面有定性提升(图 3 与图 4)。
  • BiGAN 表征向 PASCAL VOC 的分类/检测/分割等任务的迁移,与当代无监督/自监督方法一致(表 3)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。