[论文解读] Domain Generalization with MixStyle
MixStyle 通过在跨域中概率性混合实例级特征统计来正则化卷积神经网络训练,合成新的风格以提高对未见域的泛化,而无需显式的图像合成。在分类、检索和强化学习等跨域任务中获得显著改进。
Though convolutional neural networks (CNNs) have demonstrated remarkable ability in learning discriminative features, they often generalize poorly to unseen domains. Domain generalization aims to address this problem by learning from a set of source domains a model that is generalizable to any unseen domain. In this paper, a novel approach is proposed based on probabilistically mixing instance-level feature statistics of training samples across source domains. Our method, termed MixStyle, is motivated by the observation that visual domain is closely related to image style (e.g., photo vs.~sketch images). Such style information is captured by the bottom layers of a CNN where our proposed style-mixing takes place. Mixing styles of training instances results in novel domains being synthesized implicitly, which increase the domain diversity of the source domains, and hence the generalizability of the trained model. MixStyle fits into mini-batch training perfectly and is extremely easy to implement. The effectiveness of MixStyle is demonstrated on a wide range of tasks including category classification, instance retrieval and reinforcement learning.
研究动机与目标
- 通过学习来自多个源域的域不变特征来解决视觉领域的域移位问题。
- 提出一个轻量、即插即用的模块,通过在实例间混合风格统计来增强训练。
- 在分类、检索和强化学习任务中展示域泛化的改进。
- 表明隐式风格混合在不生成新图像的情况下可改善泛化性。
提出的方法
- 在CNN层之间插入 MixStyle,以扰动底层特征图的风格统计。
- 从不同域抽取两个实例,使用Beta分布权重(alpha 超参数)的凸组合来形成混合统计。
- 从原始批次统计量和参考批次统计量中计算混合统计量 gamma_mix 和 beta_mix,并将其应用于风格归一化后的特征。
- 在训练时使用 Bernoulli(0.5) 激活 MixStyle;测试时不使用 MixStyle;梯度通过均值/方差计算流动,对统计量采用停止梯度。
- 讨论 MixStyle 在残差块中的放置位置,以在风格信息与内容信息之间取得平衡,并报告对比随机洗牌与域标签洗牌的消融实验。
实验结果
研究问题
- RQ1MixStyle 是否能够通过在特征层面扩充风格多样性来改善域泛化?
- RQ2在网络中的哪一处应用 MixStyle 可以获得最佳的域泛化性能?
- RQ3与像素级数据增强和其他领域泛化方法相比,MixStyle 在标准 DG 基准上有何表现?
- RQ4MixStyle 是否在分类之外的任务(如实例检索和强化学习)也有效?
主要发现
- MixStyle 在 PACS 上对比原始 ResNet-18 的泛化性持续提升,优于 Mixup 和 DropBlock 基线。
- 使用随机洗牌或域标签的 MixStyle 分别在 PACS 上达到 82.8% 和 83.7% 的平均准确率,超过大多数先前的 DG 方法。
- 对多个较低层次的层应用 MixStyle 可获得更好性能;将其应用于最后一个 block 会降低性能,可能是因为该处包含语义内容。
- MixStyle 在 DG 任务中优于像 L2A-OT 等像素级增广方法,同时在计算开销上更轻量。
- 在跨数据集的人脸重识别中,随机洗牌或域标签的 MixStyle 相比基线在 Market1501 和 Duke 数据集上提升了 mAP/R1/R5/R10。
- 在强化学习中,MixStyle 提高对未见环境的泛化,并与 IBAC-SNI 互补。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。