[論文レビュー] Visual Prompt Tuning for Test-time Domain Adaptation
この論文は、テスト時ドメイン適応のためのデータ効率的プロンプトチューニング(DePT)を提案し、ViTのバックボーンを凍結し、視覚プロンプトと分類器を微調整し、メモリーバンクの擬似ラベル付けと階層的自己教師型正則化によって、非常に限られたチューニング可能パラメータで最先端の結果を達成する。
Models should be able to adapt to unseen data during test-time to avoid performance drops caused by inevitable distribution shifts in real-world deployment scenarios. In this work, we tackle the practical yet challenging test-time adaptation (TTA) problem, where a model adapts to the target domain without accessing the source data. We propose a simple recipe called extit{Data-efficient Prompt Tuning} (DePT) with two key ingredients. First, DePT plugs visual prompts into the vision Transformer and only tunes these source-initialized prompts during adaptation. We find such parameter-efficient finetuning can efficiently adapt the model representation to the target domain without overfitting to the noise in the learning objective. Second, DePT bootstraps the source representation to the target domain by memory bank-based online pseudo-labeling. A hierarchical self-supervised regularization specially designed for prompts is jointly optimized to alleviate error accumulation during self-training. With much fewer tunable parameters, DePT demonstrates not only state-of-the-art performance on major adaptation benchmarks VisDA-C, ImageNet-C, and DomainNet-126, but also superior data efficiency, i.e., adaptation with only 1\% or 10\% data without much performance degradation compared to 100\% data. In addition, DePT is also versatile to be extended to online or multi-source TTA settings.
研究の動機と目的
- ソース訓練済みモデルをテスト時にソースデータなしで未見のターゲットドメインへ適応させる方法を検討する。
- Vision Transformerに視覚プロンプトを導入し、プロンプトと分類器のみを更新することでパラメータ効率の高いチューニング戦略を開発する。
- メモリーバンクの擬似ラベル付けと階層的自己教師型正則化をプロンプトへ組み合わせた学習目的を提案する。
- プロンプト微調整が、限られたターゲットデータとオンライン・マルチソースTTA設定の両方で強力な性能を実現することを示す。
提案手法
- ViTの複数のトランスフォーマー層に学習可能な視覚プロンプトを挿入し、バックボーンを凍結したままプロンプトと分類ヘッドのみを微調整する。
- オンラインのメモリーバンク更新を教師-生徒EMA設定で用い、ターゲットデータの擬似ラベルを生成する。
- DINOに触発されたCLSトークンと統合プロンプトの階層的自己教師型正則化を用い、ターゲット表現を改善し自己学習の誤差蓄積を抑制する。
- 擬似ラベル損失と階層的自己教師型損失、および多様性項を組み合わせて、プロンプトが多様な特徴に注意を向けるよう促す。
- ターゲットドメインに対するソースウェイトから初期化してプロンプトを最適化することで、ターゲットドメインへのground-truthな適応を提供する。
実験結果
リサーチクエスチョン
- RQ1凍結されたViTで視覚プロンプト微調整は、ソースデータにアクセスせずに効果的なテスト時適応を提供できるか。
- RQ2メモリーバンクベースの擬似ラベル付けと階層的自己教師型正則化は、プロンプトベースのTTAを改善できるか。
- RQ3DePTのオフライン・オンライン・マルチソースTTA設定におけるデータ効率性とパラメータ効率性はどうか。
- RQ4VisDA-C、ImageNet-C、DomainNet-126といった主要ベンチマークで、既存のTTA手法と比べてDePTはどのように性能を示すか。
主な発見
- DePTは非常に少ない調整可能パラメータで、VisDA-CにおけるAdaContrastの最先端を上回る。
- DePTは高いデータ効率を実現し、例えばVisDA-Cでわずか1%の未ラベルターゲットデータで88.0%の精度を達成し、従来法を上回る。
- オンラインTTAでは、DePTはVisDA-Cで平均精度85.9%を達成し、ベースラインを4.6ポイント上回る。
- DePTはViT-BバックボーンでDomainNet-126において堅牢な性能を示し、ImageNet-Cレベル-5の助移行でもトップ1エラーを一貫して低減。
- アブレーションにより、擬似ラベル付け、メモリーバンク、CLS/プロンプトの自己監視、プロンプトの多様性が最終的な改善に寄与することが示される。
- DePTはマルチソースTTAへの柔軟な拡張を可能にし、はるかに少ない調整可能パラメータで競争力のある性能を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。