[论文解读] Deep Domain Confusion: Maximizing for Domain Invariance
本文提出了一种在预训练 CNN 中加入自适应瓶颈层的 CNN,并引入基于最大平均差异(MMD)的域混淆损失,以学习既具判别性又具域不变性的表示,从而在 Office 数据集上实现监督和无监督视觉域适应的显著改进。
Recent reports suggest that a generic supervised deep CNN model trained on a large-scale dataset reduces, but does not remove, dataset bias on a standard benchmark. Fine-tuning deep models in a new domain can require a significant amount of data, which for many applications is simply not available. We propose a new CNN architecture which introduces an adaptation layer and an additional domain confusion loss, to learn a representation that is both semantically meaningful and domain invariant. We additionally show that a domain confusion metric can be used for model selection to determine the dimension of an adaptation layer and the best position for the layer in the CNN architecture. Our proposed adaptation method offers empirical performance which exceeds previously published results on a standard benchmark visual domain adaptation task.
研究动机与目标
- 在训练和测试数据来自不同域时,解决视觉识别中的数据集偏差。
- 学习一个同时具备判别性和域不变性的深层表示。
- 在一个单一的 CNN 框架中实现有监督和无监督域适应。
提出的方法
- 在预训练的 CNN 结构中引入一个自适应瓶颈层。
- 结合基于最大均值差异(MMD)的域混淆损失,以最小化源域和目标域的分布距离。
- 联同优化带标签数据的分类损失与基于 MMD 的域不变性损失。
- 利用 MMD 指导自适应层放置的位置(深度)及其宽度(维度)。
- 采用分叉网络进行训练:一个分支用于带标签数据的有监督学习,另一个分支用于对所有数据计算域混淆。
实验结果
研究问题
- RQ1域混淆目标是否能改善深度特征在不同视觉域之间的迁移?
- RQ2基于 MMD 指导的自适应层的位置与尺寸是否能比固定表示更好地获得域不变表示?
- RQ3在 Office 数据集的有监督和无监督域适应设置中,所提方法的表现如何?
主要发现
- 所提出的方法在 Office 基准上在有监督和无监督设置下均显著优于之前的域适应方法。
- 基于 MMD 的层选择(深度)和维度选择(宽度)能够正确地识别最小化域差异、最大化目标准确性的表示。
- 在 Amazon 到 Webcam 的迁移中,该方法相比前人工作在有监督为 84.1%(supervised)和无监督为 60%(unsupervised)基线提升,所提出的方法在表 1 达到 91.9% 的平均值,在表 2 达到 81.2% 的平均值。
- 使用域混淆损失的正则化有助于在微调时防止对源域的过拟合,从而提高最终准确率。
- t-SNE 可视化显示学习表示中域混合、类别簇清晰分离,表明域不变性有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。