QUICK REVIEW

[论文解读] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

Alec Radford, Luke Metz|arXiv (Cornell University)|Nov 19, 2015

Generative Adversarial Networks and Image Synthesis被引用 7,641

一句话总结

本论文提出带有架构约束的 DCGANs，稳定训练并产出有用的无监督表示，这些表示可以重新用于有监督任务，如图像分类（例如 CIFAR-10、SVHN）。它还分析了学习的特征，可视化滤波器，并展示潜在空间的算术运算。

ABSTRACT

In recent years, supervised learning with convolutional networks (CNNs) has seen huge adoption in computer vision applications. Comparatively, unsupervised learning with CNNs has received less attention. In this work we hope to help bridge the gap between the success of CNNs for supervised learning and unsupervised learning. We introduce a class of CNNs called deep convolutional generative adversarial networks (DCGANs), that have certain architectural constraints, and demonstrate that they are a strong candidate for unsupervised learning. Training on various image datasets, we show convincing evidence that our deep convolutional adversarial pair learns a hierarchy of representations from object parts to scenes in both the generator and discriminator. Additionally, we use the learned features for novel tasks - demonstrating their applicability as general image representations.

研究动机与目标

通过提出稳定的 DCGAN 架构，弥合有监督 CNN 的成功与无监督学习之间的差距。
显示判别器和生成器学习到分层、可解释的表示。
证明学习到的特征在下游有监督任务中的实用性并可视化潜在空间结构。
探索潜在向量运算和对生成样本的操作，以揭示学习到的语义。

提出的方法

采用架构约束以稳定 GAN 的训练（全部卷积网络、无池化、顶层无全连接、全局池化取舍）。
对深层生成器和判别器应用带层级例外的批量归一化（Batch Normalization）来实现稳定。
生成器使用 ReLU（输出使用 Tanh），判别器使用 LeakyReLU。
用 Adam 优化器在 128 大小的批次上训练；从零均值高斯分布初始化；调优学习率和动量（lr=0.0002，beta1=0.5）。
在 LSUN、ImageNet-1k 以及一个人脸数据集上进行训练，进行最小预处理（缩放到 [-1,1]）；报告定性和定量评估。
通过潜在空间漫步、判别器特征的引导反向传播，以及潜在空间（Z）中的向量运算来研究内部表示。

实验结果

研究问题

RQ1DCGAN 架构是否能够在生成器和判别器中学习到一个连贯的表示层级？
RQ2DCGAN 学到的特征是否能够在没有带标签的 GAN 监督的情况下迁移到下游有监督任务？
RQ3DCGAN 获得了哪些定性属性（滤波器、潜在空间结构），以及能否操纵潜在向量来改变语义属性？
RQ4在大规模无标签数据集上训练的 DCGAN 是否会产生可解释的可控生成的视觉特征？

主要发现

在所提出的架构约束下训练的 DCGAN 允许在跨数据集（LSUN、ImageNet-1k、Faces）实现稳定训练并扩展到更高分辨率/深度。
判别器特征在无监督表示方面具备竞争力，可用于有监督任务；在 CIFAR-10 上，DCGAN 特征加线性 SVM 达到 82.8% 准确率。
在 SVHN 上使用 1000 个标记样本时，DCGAN 特征产生 22.48% 的测试误差，优于若干基线以及同一架构的纯监督 CNN（28.87% 误差）。
可视化显示学习到的滤波器在语义上有意义的卧室组件（床、窗户）上有激活；潜在空间漫步产生平滑且具有语义含义的图像过渡（例如窗户外观、床的存在）。
潜在空间中的向量运算展示了可解释的操作，包括人脸姿态变化和对象级别的变化（例如移除窗户会改变场景构成）。
生成器展现出对象级别的解耦，例如移除某些对象相关滤波器（如窗户）会改变生成结果，同时保持整体场景结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。