[论文解读] Self-Challenging Improves Cross-Domain Generalization
引入 Representation Self-Challenging (RSC),一种基于梯度的训练启发式方法,在训练过程中静音主导特征,以在没有额外参数的情况下提高 CNN 在未见域上的泛化能力。
Convolutional Neural Networks (CNN) conduct image classification by activating dominant features that correlated with labels. When the training and testing data are under similar distributions, their dominant features are similar, which usually facilitates decent performance on the testing data. The performance is nonetheless unmet when tested on samples from different distributions, leading to the challenges in cross-domain image classification. We introduce a simple training heuristic, Representation Self-Challenging (RSC), that significantly improves the generalization of CNN to the out-of-domain data. RSC iteratively challenges (discards) the dominant features activated on the training data, and forces the network to activate remaining features that correlates with labels. This process appears to activate feature representations applicable to out-of-domain data without prior knowledge of new domain and without learning extra network parameters. We present theoretical properties and conditions of RSC for improving cross-domain generalization. The experiments endorse the simple, effective and architecture-agnostic nature of our RSC method.
研究动机与目标
- 阐明需要跨域泛化,而不仅仅是与训练/测试分布相似的情况。
- 提出一个简单、与领域无关的训练启发式方法(RSC)以提升泛化能力。
- 提供理论分析,展示 RSC 如何收紧泛化界限。
- 在标准 DG 基准测试和消融实验中对 RSC 进行实证验证。
提出的方法
- 在每次迭代中,计算关于特征表示 z 的顶层分类器梯度。
- 创建一个掩码,将梯度幅值的前 p 百分位置零,有效地丢弃最具预测性的特征。
- 将 z 中相应的元素静音,以形成扰动表示 {z}。
- 使用扰动后的 z 计算 softmax 输出并反向传播以更新所有网络参数。
- RSC 不需要额外参数,与架构无关;p 是一个超参数,控制被舍弃特征的比例。
- 扩展包括空间维度和通道维度的 RSC,以及基于批次的应用策略。
实验结果
研究问题
- RQ1RSC 是否在不利用域信息的前提下提升跨域泛化?
- RQ2丢弃比例 p 如何影响训练动态与泛化?
- RQ3基于梯度的特征丢弃是否比基于激活的或随机 dropout 策略更有效?
- RQ4结合空间维度和通道维度的 RSC 是否进一步提升 DG 的性能?
- RQ5RSC 如何随骨干网络结构和数据集复杂性扩展?
主要发现
- RSC 在多个 DG 基准测试(如 PACS、VLCS、Office-Home、ImageNet-Sketch)上持续改善跨域泛化。
- 在 PACS 上,RSC 相对于基线取得显著提升,报道的增益如在 AlexNet 上 4.5、ResNet18 上 5.2、ResNet50 上 4.5,相较于选定基线。
- 在消融实验中,Top-Gradient 特征丢弃优于 Top-Activation 和随机丢弃,且在若干设置下最优的 p 约为三分之一。
- 仅空间的 RSC 与 空间+通道的 RSC 超过基线以及若干 dropout 变体,显示在利用卷积结构时的额外增益。
- RSC 也缩小了 ImageNet 上不同网络规模之间的性能差距,表明在不增大模型的情况下实现更强泛化的效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。