QUICK REVIEW

[论文解读] What Makes for Good Views for Contrastive Learning?

Yonglong Tian, Chen Sun|arXiv (Cornell University)|May 20, 2020

Adult and Continuing Education Topics参考文献 87被引用 527

一句话总结

本论文提出 InfoMin 原理：对比学习的最优视图在保持任务相关信息的同时最小化视图之间的互信息，从而在强数据增强和半监督视图学习框架下实现 ImageNet 的最新结果。

ABSTRACT

Contrastive learning between multiple views of the data has recently achieved state of the art performance in the field of self-supervised representation learning. Despite its success, the influence of different view choices has been less studied. In this paper, we use theoretical and empirical analysis to better understand the importance of view selection, and argue that we should reduce the mutual information (MI) between views while keeping task-relevant information intact. To verify this hypothesis, we devise unsupervised and semi-supervised frameworks that learn effective views by aiming to reduce their MI. We also consider data augmentation as a way to reduce MI, and show that increasing data augmentation indeed leads to decreasing MI and improves downstream classification accuracy. As a by-product, we achieve a new state-of-the-art accuracy on unsupervised pre-training for ImageNet classification ($73\%$ top-1 linear readout with a ResNet-50). In addition, transferring our models to PASCAL VOC object detection and COCO instance segmentation consistently outperforms supervised pre-training. Code:http://github.com/HobbitLong/PyContrast

研究动机与目标

定义并分析视图选择如何影响对比表示学习。
提出最优视图在保持任务相关信息的同时最小化视图之间的互信息。
展示视图之间的 MI 与下游性能之间的任务相关性，通常呈现反U形关系。
开发无监督和半监督方法以在 InfoMin 原则下学习有效视图。
展示 ImageNet 线性读出结果的最先进水平以及下游任务的迁移收益。

提出的方法

通过 InfoNCE 将互信息目标正式化为多视角对比学习。
为视图定义充分且最小充分的编码器（f1, f2）。
提出 InfoMin 命题：在 I(v1; v2) 最小化的同时满足 I(v1; y)=I(v2; y)=I(x; y)。
展示 I(v1; v2) 与下游准确率之间的反U形关系（以 I_NCE 作为代理）。
引入无监督和半监督的视图学习方法，以合成减少 MI 而又保留标签相关信息的视图。
展示 InfoMin 增强数据扩展（InfoMin Aug）能够降低 MI 并提升下游性能。

实验结果

研究问题

RQ1对比学习中视图的选择如何影响所捕获的信息以及下游任务表现？
RQ2视图之间的互信息是否存在一个在传输性能上最优的“甜蜜点”，且这一点与任务相关程度有多大？
RQ3我们能否以无监督或半监督的方式学习符合 InfoMin 原则的视图以改进表示？
RQ4更强的数据扩展是否通过降低互信息来提高下游准确率和迁移性能？
RQ5InfoMin 框架是否能够解释在 ImageNet 和下游任务上自监督学习的现有改进？

主要发现

最优视图是任务相关的。
视图之间互信息与表示质量在不同设置下呈现反U形关系。
无监督和半监督的视图学习可以在 InfoMin 原则下产生有效视图。
更强的降低 MI 的数据增强能够提升下游准确率，并且可以达到 ImageNet 线性读出结果的最先进水平（73.0% top-1，ResNet-50）。
InfoMin 增强视图在 COCO/PASCAL VOC 的若干设置中相较有监督预训练对目标检测和分割任务的迁移效果更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。