[论文解读] AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data
本论文提出 Auto-Encoding Transformations (AET),一种无监督表示学习范式,通过从编码特征预测图像变换,在 CIFAR-10、ImageNet 和 Places 上达到接近监督方法的最先进结果。
The success of deep neural networks often relies on a large amount of labeled examples, which can be difficult to obtain in many real scenarios. To address this challenge, unsupervised methods are strongly preferred for training neural networks without using any labeled data. In this paper, we present a novel paradigm of unsupervised representation learning by Auto-Encoding Transformation (AET) in contrast to the conventional Auto-Encoding Data (AED) approach. Given a randomly sampled transformation, AET seeks to predict it merely from the encoded features as accurately as possible at the output end. The idea is the following: as long as the unsupervised features successfully encode the essential information about the visual structures of original and transformed images, the transformation can be well predicted. We will show that this AET paradigm allows us to instantiate a large variety of transformations, from parameterized, to non-parameterized and GAN-induced ones. Our experiments show that AET greatly improves over existing unsupervised approaches, setting new state-of-the-art performances being greatly closer to the upper bounds by their fully supervised counterparts on CIFAR-10, ImageNet and Places datasets.
研究动机与目标
- 在有标签数据稀缺时,激发无监督表示学习的动机。
- 提出 AET,通过预测输入变换来学习特征,而不是重构数据。
- 证明 AET 支持多种变换,并取得强有力的实证结果。
提出的方法
- 给出 AET 的公式:学习编码器 E 和变换解码器 D,以从 E(x) 和 E(t(x)) 预测采样得到的变换 t。
- 最小化真实变换 t 与其估计 t_hat 之间的损失 ell(t, t_hat),其中 t_hat = D(E(x), E(t(x))).
- 用参数化变换(如仿射、射影)以及由 GAN 引入或非参数化的变体来实例化 AET。
- 使用共享权重的双分支来编码原始图像和变换后的图像,并连接特征以解码变换。
- 端到端地用 SGD 在小批量上训练,利用反向传播更新 E 和 D。
实验结果
研究问题
- RQ1将图像进行变换后再从学习到的特征中解码变换,是否能比数据重建得到更好的无监督表征?
- RQ2哪些类别的变换(参数化、GAN 引入、非参数化)最有利于学习到信息丰富的特征?
- RQ3与 CIFAR-10、ImageNet 和 Places 上的最先进无监督方法相比,AET 的表现如何?
- RQ4预测的变换损失是否与有监督分类性能相关?
主要发现
- AET-project(射影变换)在 CIFAR-10 上使用卷积分类器实现 7.82% 的错误率,接近全监督的 7.2%。
- AET 方法在 CIFAR-10 上超越 RotNet 及其他无监督基线,适用于 FC 与卷积分类器并且在 KNN 评估中表现出色。
- 在 ImageNet 上,AET-project 超越了若干无监督方法,并缩小与上限有监督性能的差距(如 Conv4 和 Conv5 设置下的差距缩小)。
- AET 表征在变换预测损失与有监督准确率之间显示出更好的对齐,支持 AET 目标的有效性。
- 在 ImageNet 预训练并使用线性/逻辑回归分类器评估时,AET 在 Places 的迁移表现仍然强劲且具有竞争力。
- 实验表明可以纳入各种变换,其中参数化变换提供了直接、可公平比较的方式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。