[论文解读] Learning Representations by Maximizing Mutual Information Across Views
AMDIM 通过最大化增强视图和多尺度视图之间的互信息来学习自监督图像表征,在 ImageNet 获得 68.1% 的线性准确率,在 STL10 和 Places205 得到强劲结果。
We propose an approach to self-supervised representation learning based on maximizing mutual information between features extracted from multiple views of a shared context. For example, one could produce multiple views of a local spatio-temporal context by observing it from different locations (e.g., camera positions within a scene), and via different modalities (e.g., tactile, auditory, or visual). Or, an ImageNet image could provide a context from which one produces multiple views by repeatedly applying data augmentation. Maximizing mutual information between features extracted from these views requires capturing information about high-level factors whose influence spans multiple views -- e.g., presence of certain objects or occurrence of certain events. Following our proposed approach, we develop a model which learns image representations that significantly outperform prior methods on the tasks we consider. Most notably, using self-supervised learning, our model learns representations which achieve 68.1% accuracy on ImageNet using standard linear evaluation. This beats prior results by over 12% and concurrent results by 7%. When we extend our model to use mixture-based representations, segmentation behaviour emerges as a natural side-effect. Our code is available online: https://github.com/Philip-Bachman/amdim-public.
研究动机与目标
- 激发无监督表征学习,以减少对带标签数据的依赖。
- 基于一个上下文的多个视图之间互信息的自监督目标。
- 在局部 DIM 的基础上扩展,加入增强视图、多尺度预测和更强的编码器。
- 探索基于混合表示的可能产生类似分割行为的表示。
- 在标准视觉基准上展示最新的性能。
提出的方法
- 将局部 Deep InfoMax (DIM) 扩展为 Augmented Multiscale DIM (AMDIM)。
- 最大化来自独立增强输入副本的特征之间的互信息。
- 在多个特征尺度上进行预测(multiscale infomax)。
- 使用更强大的编码器架构,并结合带负样本的对比 NCE 边界。
- 结合数据增强,创建对同一上下文的多样视图。
- 引入带熵正则化项的基于混合的表示。
实验结果
研究问题
- RQ1在增强视图之间最大化互信息,是否比先前的自监督方法改进了学习表征?
- RQ2引入多尺度和基于混合的特征如何影响性能和涌现行为?
- RQ3数据增强策略和 NCE 正则化对表征质量的影响?
- RQ4AMDIM 是否能扩展到如 ImageNet 这样的大数据集,并迁移到 Places205 等其他数据集?
主要发现
- AMDIM 在 ImageNet 的线性评估中达到 68.1% 精度,比先前结果高出超过 12%。
- 在 STL10 的线性评估中达到超过 94% 的精度,且未对编码器进行微调。
- 在 Places205 上,AMDIM 达到 55% 的精度,比此前最佳高出 7%。
- 与基线 Local DIM 相比,多尺度和基于增强视图显著提升性能。
- 基于混合的表示显示出类似分割的行为,并在 STL10 任务中有潜在收益。
- 该方法在 CIFAR-10/100、STL10、ImageNet 和 Places205 上给出具有竞争力的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。