[论文解读] CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation
CDTrans 引入一个带有跨注意力的权重共享三分支 Transformer,用于无监督领域自适应,通过双向中心感知伪标签对齐源域和目标域,在 VisDA-2017 和 DomainNet 上实现最先进的结果。
Unsupervised domain adaptation (UDA) aims to transfer knowledge learned from a labeled source domain to a different unlabeled target domain. Most existing UDA methods focus on learning domain-invariant feature representation, either from the domain level or category level, using convolution neural networks (CNNs)-based frameworks. One fundamental problem for the category level based UDA is the production of pseudo labels for samples in target domain, which are usually too noisy for accurate domain alignment, inevitably compromising the UDA performance. With the success of Transformer in various tasks, we find that the cross-attention in Transformer is robust to the noisy input pairs for better feature alignment, thus in this paper Transformer is adopted for the challenging UDA task. Specifically, to generate accurate input pairs, we design a two-way center-aware labeling algorithm to produce pseudo labels for target samples. Along with the pseudo labels, a weight-sharing triple-branch transformer framework is proposed to apply self-attention and cross-attention for source/target feature learning and source-target domain alignment, respectively. Such design explicitly enforces the framework to learn discriminative domain-specific and domain-invariant representations simultaneously. The proposed method is dubbed CDTrans (cross-domain transformer), and it provides one of the first attempts to solve UDA tasks with a pure transformer solution. Experiments show that our proposed method achieves the best performance on public UDA datasets, e.g. VisDA-2017 and DomainNet. Code and models are available at https://github.com/CDTrans/CDTrans.
研究动机与目标
- 激励无监督领域自适应(UDA)并解决类别层对齐中伪标签的噪声问题。
- 提出一个纯 Transformer 框架(CDTrans),利用跨注意力实现稳健的源-target 对齐。
- 引入一种双向中心感知伪标签方法,以生成高质量的伪标签。
- 在 VisDA-2017、DomainNet 等主要 UDA 基准数据集上展示最先进的性能。
提出的方法
- 提出一个权重共享的三分支 Transformer(源、目标和源-目标分支)。
- 在源/目标分支中应用自注意力,在源-目标分支中使用跨注意力以实现域对齐。
- 在训练过程中使用来自源-目标分支的蒸馏损失来监督目标分支。
- 设计一个双向中心感知标注算法,根据跨域相似性和基于中心的细化来生成和筛选伪标签。
- 以源/目标分支的分类损失和源-目标分支与目标分支之间的蒸馏损失进行训练;推理阶段仅使用目标分支。
实验结果
研究问题
- RQ1纯 Transformer 能否通过跨注意力在存在噪声伪标签的情况下通过稳健对齐两个域来提升 UDA?
- RQ2双向中心感知伪标签策略是否能够为跨域 Transformer 训练产生更高质量的输入对?
- RQ3与最先进方法相比,CDTrans 框架在标准 UDA 基准上的表现如何?
- RQ4在使用跨注意力时,不同损失(cls vs dtl)对 UDA 性能有何影响?
主要发现
- 具有跨注意力和三分支权重共享的 CDTrans 在公认基准上实现强劲的 UDA 性能,超越了许多最先进的方法。
- 双向中心感知标注方法提升了伪标签质量,接近使用真值对训练的上限性能。
- 全面的消融研究表明,结合分类损失和蒸馏损失可获得最好的 VisDA-2017 结果。
- Transformer 在 UDA 中提供了鲁棒的泛化,在多个数据集(VisDA-2017、Office-Home、Office-31、DomainNet)上相比基于 CNN 的基线有显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。