QUICK REVIEW

[论文解读] Data-Efficient Image Recognition with Contrastive Predictive Coding

Olivier J. Hénaff, Aravind Srinivas|arXiv (Cornell University)|May 22, 2019

Advanced Image and Video Retrieval Techniques参考文献 99被引用 936

一句话总结

这篇论文重新审视并改进 Contrastive Predictive Coding (CPC)，以学习无监督的图像表征，从而实现数据高效的识别，达到在 ImageNet 上线性分类的最先进性能，并在对象检测上具有强迁移能力，且在少量标签情况下相比基于像素的训练有显著更好的性能。

ABSTRACT

Human observers can learn to recognize new categories of images from a handful of examples, yet doing so with artificial ones remains an open challenge. We hypothesize that data-efficient recognition is enabled by representations which make the variability in natural signals more predictable. We therefore revisit and improve Contrastive Predictive Coding, an unsupervised objective for learning such representations. This new implementation produces features which support state-of-the-art linear classification accuracy on the ImageNet dataset. When used as input for non-linear classification with deep neural networks, this representation allows us to use 2-5x less labels than classifiers trained directly on image pixels. Finally, this unsupervised representation substantially improves transfer learning to object detection on the PASCAL VOC dataset, surpassing fully supervised pre-trained ImageNet classifiers.

研究动机与目标

通过学习能够使自然信号变异性更可预测的表征来激发数据高效的识别。
改进 CPC 架构与训练，以最大化下游线性可分性和数据效率。
证明 CPC 预训练特征在需要更少标签的情况下就能达到与基于像素的有监督模型相竞争甚至更优的性能。
展示 CPC 表征对 PASCAL VOC 2007 目标检测的迁移性，超越有监督预训练。
提供关于能够提升 CPC 性能的架构与增强方法的实际指南。

提出的方法

使用增强型编码器（ResNet-161）重新表述 CPC，并扩展基于补丁的预测任务以增加监督信号。
使用层归一化替代批量归一化，以提升训练效率和性能。
在多个方向（上、下、左、右）进行预测，以增加预测任务和准确性。
应用基于补丁的增强，包括颜色丢弃和随机几何/颜色变换，以抑制对低级线索的依赖。
在 CPC 特征上训练线性分类器用于线性评估，并在必要时对编码器和分类器进行联合微调以实现高效分类。
将 CPC 表征迁移到 Faster-RCNN 进行 PASCAL VOC 2007 的目标检测以评估泛化。

实验结果

研究问题

RQ1CPC 是否可以通过扩大规模和修改来产生提升数据高效图像识别的表征？
RQ2架构变更、归一化选择和多方向预测是否能提升 CPC 性能？
RQ3在有限标注数据下，CPC 表征是否能带来与基于像素的监督模型相当或更优的性能？
RQ4CPC 预训练特征是否能有效迁移到另一个数据集上的目标检测（PASCAL VOC 2007）？

主要发现

CPC v2 在线性 ImageNet 分类上达到 71.5% 的 Top-1 准确率，较 CPC v1 的 48.7% 提升。
使用 1% 的 ImageNet 标签时，在 CPC 特征上的分类器达到 78.3% 的 Top-5 准确率（相比 1% 标签的像素基有监督训练的 44.1%）。
全部标签训练后，CPC 基模型达到 83.4% 的 Top-1 和 96.5% 的 Top-5，超过有监督的 ResNet-200 基线。
CPC 表征实现强迁移，在 PASCAL VOC 2007 目标检测中达到 76.6% 的 mAP，超过有监督预训练的 74.7% mAP。
CPC 的改进来自更大容量（ResNet-161）、更大的感受野、层归一化、多方向预测，以及广泛的基于补丁的增强。
基于 CPC 的方法在数据高效识别方面与标签传播及其他自监督方法具有竞争力甚至超过它们。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。