[论文解读] Visual Prompt Tuning for Test-time Domain Adaptation
本文提出 Data-efficient Prompt Tuning (DePT) 用于测试时域自适应,冻结 ViT 主干网络并微调视觉提示与分类器,在记忆库伪标签和分层自监督正则化的帮助下,以极少的可调参数达到最先进的结果。
Models should be able to adapt to unseen data during test-time to avoid performance drops caused by inevitable distribution shifts in real-world deployment scenarios. In this work, we tackle the practical yet challenging test-time adaptation (TTA) problem, where a model adapts to the target domain without accessing the source data. We propose a simple recipe called extit{Data-efficient Prompt Tuning} (DePT) with two key ingredients. First, DePT plugs visual prompts into the vision Transformer and only tunes these source-initialized prompts during adaptation. We find such parameter-efficient finetuning can efficiently adapt the model representation to the target domain without overfitting to the noise in the learning objective. Second, DePT bootstraps the source representation to the target domain by memory bank-based online pseudo-labeling. A hierarchical self-supervised regularization specially designed for prompts is jointly optimized to alleviate error accumulation during self-training. With much fewer tunable parameters, DePT demonstrates not only state-of-the-art performance on major adaptation benchmarks VisDA-C, ImageNet-C, and DomainNet-126, but also superior data efficiency, i.e., adaptation with only 1\% or 10\% data without much performance degradation compared to 100\% data. In addition, DePT is also versatile to be extended to online or multi-source TTA settings.
研究动机与目标
- 在测试时如何在无源数据的情况下将源训练模型适应到未见目标域。
- 通过在 Vision Transformer 中引入视觉提示并仅更新提示和分类器,提出一种参数高效的微调策略。
- 提出一个学习目标,将记忆库伪标签与分层自监督正则化结合用于提示。
- 证明提示微调在有限的目标数据和在线及多源 TTA 设置下也能实现强性能。
提出的方法
- 在 ViT 的多处 Transformer 阶段插入可学习的视觉提示,并仅对提示和分类头进行微调,主干网络保持冻结。
- 使用带教师-学生 EMA 机制的在线记忆库 refinement 为目标数据生成伪标签。
- 对 CLS 令牌和聚合提示应用受 DINO 启发的分层自监督正则化,以提升目标表示并减少自训练误差累积。
- 将伪标签损失与分层自监督损失以及多样性项结合,鼓励提示关注多样化特征。
- 通过以源权重初始化目标模型并优化目标域的提示,提供源到目标的对照适配。
实验结果
研究问题
- RQ1视觉提示微调在冻结的 ViT 上是否能够在没有源数据的情况下实现有效的测试时自适应?
- RQ2基于记忆库的伪标签与分层自监督正则化如何改进基于提示的 TTA?
- RQ3在离线、在线和多源 TTA 设置下,DePT 的数据与参数效率如何?
- RQ4与现有 TTA 方法相比,DePT 在 VisDA-C、ImageNet-C、DomainNet-126 等基准上的表现如何?
主要发现
- DePT 以极少的可调参数超越 VisDA-C 上的 AdaContrast 的最先进水平,参数量为 0.19%。
- DePT 展现出良好的数据效率,例如在 VisDA-C 仅使用 1% 的未标记目标数据就达到 88.0% 的准确率,超越先前方法。
- 在在线 TTA 中,DePT 在 VisDA-C 的平均准确率达到 85.9%,比基线高出 4.6 个百分点。
- DePT 在 ImageNet-C 的 级别-5 损坏下持续降低 top-1 错误,并在以 ViT-B 为骨干的 DomainNet-126 中显示稳健表现。
- 消融实验显示伪标签、记忆库、CLS/提示的自监督以及提示多样性对最终增益的贡献。
- DePT 支持灵活扩展到多源 TTA,并在可观的可调参数显著减少的前提下保持竞争力的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。