[论文解读] Automatic Shortcut Removal for Self-Supervised Representation Learning
本文提出一种对抗训练的图像到图像镜头,在自监督预训练中去除捷径特征,提升跨任务和数据集的可迁移表示。该镜头揭示并缓解数据集/任务偏差,增强语义特征学习。
In self-supervised visual representation learning, a feature extractor is trained on a "pretext task" for which labels can be generated cheaply, without human annotation. A central challenge in this approach is that the feature extractor quickly learns to exploit low-level visual features such as color aberrations or watermarks and then fails to learn useful semantic representations. Much work has gone into identifying such "shortcut" features and hand-designing schemes to reduce their effect. Here, we propose a general framework for mitigating the effect shortcut features. Our key assumption is that those features which are the first to be exploited for solving the pretext task may also be the most vulnerable to an adversary trained to make the task harder. We show that this assumption holds across common pretext tasks and datasets by training a "lens" network to make small image changes that maximally reduce performance in the pretext task. Representations learned with the modified images outperform those learned without in all tested cases. Additionally, the modifications made by the lens reveal how the choice of pretext task and dataset affects the features learned by self-supervision.
研究动机与目标
- 激励并形式化自监督学习(SSL)中的捷径特征问题。
- 提出一种自动化方法,在不手工设计数据增强的前提下去除捷径。
- 证明基于 lens 的捷径去除能够提升跨任务和数据集的 SSL 表征。
- 利用 lens 可视化分析数据集和前文本任务偏差,并指导任务设计。
提出的方法
- 引入一个轻量级的 image-to-image 转换网络(lens),对输入进行对抗性修改以降低 SSL 表现。
- 用对抗损失训练 lens,以在保持图像重建质量的同时最大化前文本任务难度。
- 使用 L2 重构损失对 lens 进行正则化,并为每个任务选择超参数(lambda)。
- 将来自被 lens 处理的输入与未处理的输入的表示结合用于下游评估,以保持信息内容。
实验结果
研究问题
- RQ1一个对抗性 lens 能否自动识别并去除在 SSL 的前文本任务中有助于求解的捷径?
- RQ2基于 lens 的修改是否能在跨数据集和前文本任务的情况下提升 SSL 表征的下游迁移性能?
- RQ3lens 移除了哪些视觉特征,这些与任务/数据集偏差有何关系?
- RQ4基于 lens 的捷径去除如何影响学习表示的语义质量?
- RQ5lens 是否能揭示数据集偏差并为 SSL 指导数据增强设计?
主要发现
- 在多个前文本任务和数据集上,应用 lens 相较于基线 SSL 表现显著提升。
- lens 在提升迁移性能方面优于标准对抗训练方法,如 FGSM,尤其是在迁移到 Places205 时。
- lens 诱导的表示呈现更强的语义性,例如在纹理偏向线索上向形状基础决策的转变。
- lens 可视化揭示可解释的捷径特征,如水印、色像差和数据集特定偏差。
- 在视频帧(YouTube1M)上,lens 恢复了相对于 ImageNet 训练损失的大部分性能,并减少了非整理数据中的偏差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。