[論文レビュー] Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization
PromptAlignは、CLIPのマルチモーダル prompting にテスト時のトークン分布整列を追加し、分布整列とエントロピー最小化を組み合わせて、ドメインシフトやデータセット間でのゼロショット一般化を改善します。
The promising zero-shot generalization of vision-language models such as CLIP has led to their adoption using prompt learning for numerous downstream tasks. Previous works have shown test-time prompt tuning using entropy minimization to adapt text prompts for unseen domains. While effective, this overlooks the key cause for performance degradation to unseen domains -- distribution shift. In this work, we explicitly handle this problem by aligning the out-of-distribution (OOD) test sample statistics to those of the source data using prompt tuning. We use a single test sample to adapt multi-modal prompts at test time by minimizing the feature distribution shift to bridge the gap in the test domain. Evaluating against the domain generalization benchmark, our method improves zero-shot top- 1 accuracy beyond existing prompt-learning techniques, with a 3.08% improvement over the baseline MaPLe. In cross-dataset generalization with unseen categories across 10 datasets, our method improves consistently across all datasets compared to the existing state-of-the-art. Our source code and models are available at https://jameelhassan.github.io/promptalign.
研究の動機と目的
- 視覚言語モデルにおける事前学習分布とテスト分布の分布シフトに対処する動機づけ。
- 代理データセットを用いて、テスト時プロンプト調整を拡張し、明示的にトークン分布を整列させる。
- 分布整列とエントロピー最小化を組み合わせると、ゼロショット一般化がより強力になることを示す。
- ImageNetが、CLIP様モデルの分布整列において実用的な代理ソースデータセットとなり得ることを示す。
- ドメイン一般化とクロスデータセットベンチマークでPromptAlignを評価し、最先端の性能を確立する。
提案手法
- マルチモーダルプロンプト学習(MaPLe)を用いて、テキストと視覚ブランチの両方のプロンプトを更新する。
- テストサンプルごとに複数の拡張ビューを生成し、プロンプトされた画像トークンの層ごとの分布(平均と分散)を計算する。
- 各ビジュアルトランスフォーマ層について、代理データセット(ImageNet)からオフラインのソース分布統計を計算する。
- 予測のエントロピー(ビューごとのアンサンブル)と層をまたいだテストビュー統計と代理ソース統計のL1トークン分布整列を結合した損失を最小化する。
- エントロピーと整列損失のバランスをとるようAdamWでプロンプトを最適化する(βは整列の重みを制御)。
実験結果
リサーチクエスチョン
- RQ1テスト時のプロンプト調整は、テストトークン分布を代理ソース分布と明示的に整列させることで改善できるか?
- RQ2トークン分布整列とエントロピー最小化を組み合わせると、ドメインシフト下でのゼロショット一般化は改善されるか?
- RQ3テスト時の分布整列において、ImageNetはCLIP様モデルの実用的な代理ソースデータセットとなり得るか?
- RQ4既存のプロンプト学習法と比較して、PromptAlignはドメイン一般化およびクロスデータセット移行でどのように性能を示すか?
主な発見
| Model | Imagenet V2 | Imagenet Sketch | Imagenet A | Imagenet R | OOD Avg. |
|---|---|---|---|---|---|
| MaPLe | 64.07 | 49.15 | 50.90 | 76.98 | 60.28 |
| MaPLe+TPT | 64.87 | 48.16 | 58.08 | 78.12 | 62.31 |
| PromptAlign | 65.29 | 50.23 | 59.37 | 79.33 | 63.55 |
- PromptAlignは、ドメイン一般化においてMaPLeを平均で3.08%上回るゼロショットTop-1精度を達成。
- PromptAlignは、従来手法と比較してImageNet派生データで最高の平均Top-1精度を達成(Table 2は MaPLe 60.28、MaPLe+TPT 62.31、PromptAlign 63.55)。
- クロスデータセット一般化では、PromptAlignは10データセットすべてで一貫して向上し、前回の最高を上回る平均0.71%の改善。
- データセット間全体では、PromptAlignは平均66.92% Top-1、MaPLe 66.30%、MaPLe+TPT 66.50%(Table 4)。
- ImageNetを代理ソースデータとして用いると、効果的な分布整列と頑健な一般化をもたらす。
- 破壊的な比較は、エントロピーとトークン分布整列を組み合わせると最良の性能を示し、高次統計は限られた改善にとどまることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。