[论文解读] Learning Robust Global Representations by Penalizing Local Predictive Power
本文提出 Patch-wise Adversarial Regularization (PAR) 来抑制早期 CNN 层的局部(patch 级)预测信号,推动模型学习在域偏移下泛化更好的全局表示,而不需要目标域数据。
Despite their renowned predictive power on i.i.d. data, convolutional neural networks are known to rely more on high-frequency patterns that humans deem superficial than on low-frequency patterns that agree better with intuitions about what constitutes category membership. This paper proposes a method for training robust convolutional networks by penalizing the predictive power of the local representations learned by earlier layers. Intuitively, our networks are forced to discard predictive signals such as color and texture that can be gleaned from local receptive fields and to rely instead on the global structures of the image. Across a battery of synthetic and benchmark domain adaptation tasks, our method confers improved generalization out of the domain. Also, to evaluate cross-domain transfer, we introduce ImageNet-Sketch, a new dataset consisting of sketch-like images, that matches the ImageNet classification validation set in categories and scale.
研究动机与目标
- 推动对全球线索而非局部线索的鲁棒图像分类,以提升跨域泛化。
- 提出一种训练目标,惩罚早期层的局部预测能力,同时保持最终层的准确性。
- 在合成与真实世界的域自适应/泛化任务中,探索方法的实用变体和训练启发式。
- 引入 ImageNet-Sketch 作为大规模的跨域基准,用于评估对草图风格图像的鲁棒性。
提出的方法
- 定义一个在每个空间位置的局部特征 g(X;δ) 上工作的 patch-wise 分类器 h。
- 构建一个极小极大正则化,惩罚局部预测能力:对每个位置,训练 h 从局部补丁表示预测 y,同时训练 g 以阻碍此类预测(式(Eq. 2))。
- 将 PAR 目标与标准损失结合:在 δ, θ 上最小化 E[l(f(g(X;δ);θ),y)] − (λ/m′n′) Σ l(h(g(X;δ)_{i,j};φ),y),同时最小化局部预测损失对 φ。
- 实现 h 作为 1×1 卷积(在位置间共享),以提高效率;变体包括更强的局部分类器(PAR M)、更大补丁(PAR B),以及使用更高层(PAR H)。
- 可選地应用训练启发式:先常规预训练,然后再用 PAR 微调。
- 给出扩展与实际训练细节,以与域对抗和其他域泛化方法进行比较。
实验结果
研究问题
- RQ1惩罚早期层的局部预测能力是否在没有目标域数据的情况下提升对域偏移的鲁棒性?
- RQ2在各种扰动和数据集偏移下,PAR 与现有的域自适应/泛化方法相比表现如何?
- RQ3不同的 PAR 变体(原始、MLP 判别器、较大补丁、较高层正则化)对在域内与域外性能有何影响?
- RQ4一个大规模、基于草图的跨域基准(ImageNet-Sketch)是否能揭示 PAR 在超越标准基准的鲁棒性优势?
主要发现
| 方法 | 灰度 | 负色 | 随机核 | 径向核 | 平均 |
|---|---|---|---|---|---|
| ResNet | 87.7 | 62.8 | 43.0 | 62.4 | 63.9 |
| DANN | 87.3 | 64.3 | 33.4 | 63.3 | 62.0 |
| InfoDrop | 86.4 | 57.6 | 41.3 | 60.3 | 61.4 |
| HEX | 87.6 | 62.4 | 42.5 | 61.9 | 63.6 |
| PAR | 88.1 | 66.2 | 47.0 | 63.8 | 66.3 |
| PAR B | 87.9 | 65.3 | 40.5 | 63.2 | 64.2 |
| PAR M | 87.8 | 67.6 | 47.5 | 63.2 | 66.5 |
| PAR H | 86.9 | 62.7 | 40.8 | 61.4 | 62.9 |
- PAR 及其变体在 MNIST 扰动、CIFAR-10 扰动和 PACS 的域外/泛化性能上均有提升,通常优于 DANN、HEX 和 InfoDrop 基线。
- PAR 在 PACS 的 Sketch 域上取得显著提升,凸显在颜色/局部线索无法转移时的优势。
- 在带扰动的 CIFAR-10 上,PAR 在灰度、负色、随机核和径向核扰动下均达到最好或接近最好;PAR M/B/H 在不同扰动下表现不同。
- ImageNet-Sketch 实验显示 PAR 在草图样本上的前 1、前 5 准确率相对于 AlexNet 基线有适度提升,展示了跨域泛化的改善。
- 在某些内域设置中,当局部模式确实具有预测力时,PAR 可能略微降低内域性能;总体而言,原始 PAR 在多种情境下提供稳健的改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。