[论文解读] Drop to Adapt: Learning Discriminative Features for Unsupervised Domain Adaptation
该论文提出了一种名为 Drop to Adapt (DTA) 的新型无监督域自适应方法,通过对抗性丢弃强制执行聚类假设,以学习具有判别性且域不变的特征。通过在全连接层和卷积层上应用逐元素和逐通道的对抗性丢弃,DTA 将决策边界从密集的目标特征区域推开,从而在图像分类和语义分割基准上实现了最先进性能,并且相较于源模型仅训练和先前的 SOTA 方法持续提升。
Recent works on domain adaptation exploit adversarial training to obtain domain-invariant feature representations from the joint learning of feature extractor and domain discriminator networks. However, domain adversarial methods render suboptimal performances since they attempt to match the distributions among the domains without considering the task at hand. We propose Drop to Adapt (DTA), which leverages adversarial dropout to learn strongly discriminative features by enforcing the cluster assumption. Accordingly, we design objective functions to support robust domain adaptation. We demonstrate efficacy of the proposed method on various experiments and achieve consistent improvements in both image classification and semantic segmentation tasks. Our source code is available at https://github.com/postBG/DTA.pytorch.
研究动机与目标
- 为解决域对抗训练在域对齐过程中忽略类别标签而导致学习到非判别性特征的局限性。
- 通过强制执行聚类假设(即决策边界应位于特征空间的低密度区域)来改进无监督域自适应。
- 开发一种可泛化的正则化技术,以在无需目标数据标签的情况下增强目标域的特征判别性。
- 将方法扩展至图像分类和语义分割任务,证明其在多种域偏移下的鲁棒性。
- 提供一种简单但高效的框架,可无缝集成至现有深度学习架构中。
提出的方法
- 提出两种对抗性丢弃:用于全连接层的逐元素对抗性丢弃(EAdD)和用于卷积层的逐通道对抗性丢弃(CAdD)。
- 在训练过程中应用 EAdD 和 CAdD,以一种方式扰动特征,促使模型学习远离密集目标特征簇的鲁棒决策边界。
- 设计一个损失函数,将交叉熵损失与对抗性丢弃正则化相结合,以在聚类假设下提升特征判别性。
- 将所提出的 DTA 方法与 VAT(虚拟对抗训练)结合,整合输入空间和特征空间正则化,以增强泛化能力。
- 通过分别在最终分类器和中间特征层应用该方法,支持分类和语义分割任务。
- 采用极小极大训练策略,使对抗性丢弃被优化以最大化模型对特征扰动的鲁棒性。
实验结果
研究问题
- RQ1对抗性丢弃能否在无监督域自适应中有效用于强制执行聚类假设?
- RQ2在特征提取器和分类器层同时应用对抗性丢弃是否能提升目标域上的泛化性能?
- RQ3所提出的 DTA 方法在不同数据集和架构下的性能与鲁棒性方面,相较于最先进域自适应方法表现如何?
- RQ4将 DTA 与 VAT(虚拟对抗训练)结合在多大程度上能提升模型泛化能力和域偏移适应能力?
- RQ5DTA 框架是否可在不同网络架构和任务(如图像分类和语义分割)中实现泛化?
主要发现
- 在 VisDA-2017 基准上,DTA 使用 ResNet-50 达到 93.1% 的 top-1 准确率,使用 ResNet-101 达到 93.7%,显著优于源模型仅训练的基线(分别为 46.2% 和 46.2%)。
- 在 Cityscapes 到 Cityscapes 的语义分割适应中,DTA 达到 81.5% 的平均 IoU,超过源模型仅训练的基线(50.8%),并优于先前的 SOTA 方法。
- fDTA 与 cDTA 结合 VAT 后,在 ResNet-101 上达到 81.2% 的准确率,在 ResNet-50 上达到 73.1%,表明正则化效果具有互补性。
- 消融研究证实,VAT、fDTA 和 cDTA 每个组件均独立贡献性能提升,其中 fDTA 对 'knife' 等特定类别影响显著,VAT 对 'skateboard' 类别影响明显。
- 该方法在主干网络架构间具有泛化能力,对 ResNet-50 和 ResNet-101 均实现一致提升,表明其对模型容量不敏感,具备鲁棒性。
- 所提方法在图像分类和语义分割任务中均实现了最先进性能,在多个基准和域偏移场景下均表现出一致的性能增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。