[论文解读] FSDR: Frequency Space Domain Randomization for Domain Generalization
FSDR 将图像分解为频域分量,以在保持域不变部分的同时对域差异部分进行随机化,从而提升语义分割的域泛化能力。它提出两种方法(FSDR-SA 和 FSDR-SL),在单源基线上实现更优结果,并在与某些领域自适应方法的比较中具有竞争力。
Domain generalization aims to learn a generalizable model from a known source domain for various unknown target domains. It has been studied widely by domain randomization that transfers source images to different styles in spatial space for learning domain-agnostic features. However, most existing randomization uses GANs that often lack of controls and even alter semantic structures of images undesirably. Inspired by the idea of JPEG that converts spatial images into multiple frequency components (FCs), we propose Frequency Space Domain Randomization (FSDR) that randomizes images in frequency space by keeping domain-invariant FCs (DIFs) and randomizing domain-variant FCs (DVFs) only. FSDR has two unique features: 1) it decomposes images into DIFs and DVFs which allows explicit access and manipulation of them and more controllable randomization; 2) it has minimal effects on semantic structures of images and domain-invariant features. We examined domain variance and invariance property of FCs statistically and designed a network that can identify and fuse DIFs and DVFs dynamically through iterative learning. Extensive experiments over multiple domain generalizable segmentation tasks show that FSDR achieves superior segmentation and its performance is even on par with domain adaptation methods that access target data in training.
研究动机与目标
- 在不使用目标域数据的情况下,通过最小化对域不变特征的非意图性修改来推动域泛化。
- 提出一个频域框架,分离并操作域变异的频率分量。
- 开发两种策略(FSDR-SA 和 FSDR-SL)以识别并应用 DVFs/DIFs 以实现稳健的泛化。
- 证明频率空间随机化对空间域方法具有互补作用,并在多个目标上提升分割性能。
提出的方法
- 使用离散余弦变换(DCT)将 图像转换到频域并分解为64个频率分量(FCs)。
- 通过频谱分析和迭代学习识别域不变的FCs(DIFs)和域变异的FCs(DVFs)。
- 仅对DVFs进行随机化,同时保持DIFs不变,以保留语义结构。
- 实现两种FSDR变体:FSDR-SA使用与参考图像的直方图匹配进行DVF随机化;FSDR-SL使用双向、基于熵的频谱学习来自适应地识别DVFs/DIFs。
- 以组合目标函数对模型进行训练:L_orig + L_SA + L_SL,以强制实现领域鲁棒且不变的表示。
- 可选地将FSDR与现有的领域自适应/泛化模型集成,开销极小。
实验结果
研究问题
- RQ1通过保留语义而对风格进行扰动,基于频域分解(DIFs vs DVFs)是否能够提升域泛化?
- RQ2基于频谱分析的与基于频谱学习的FSDR策略是否能够有效识别DIFs/DVFs以实现稳健泛化?
- RQ3FSDR如何与传统的空间域域泛化方法交互,是否能够对其进行互补?
- RQ4在GTA/SYNTHIA到真实世界目标的语义分割性能上,包含FSDR组件的影响是什么?
主要发现
- FSDR 同时具备 SA 与 SL 损失时,在 Cityscapes、Mapillary、以及 BDD 上优于基线(mIoU:baseline 为 33.4、27.9、27.3;完整 FSDR 为 44.8、43.4、41.2)。
- FSDR-SA 与 FSDR-SL 各自均优于基线,其中 FSDR-SL 由于自适应且双向的频谱学习而取得更大提升(例如 Cityscapes/Mapillary/BDD 为 43.6/42.1/40.1,对比 42.1/39.2/37.8 等)。
- FSDR 在 GTA5 与 SYNTHIA 到现实世界目标的多项领域自适应与域泛化方法比较中,取得了最先进或具竞争力的结果。
- 该方法与现有的领域自适应/生成网络具有互补性,集成时可带来持续改进(如综合结果所示)。
- 灵敏度分析表明,性能对保留的 FC 比例 p 具有鲁棒性,只有在极端设置(p 接近 0 或 1)时才会出现显著下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。