[論文レビュー] E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning
E^2VPT は自己注意と入力層に学習可能なキーバリュープロンプトと視覚プロンプトを導入し、二階層プロンプト剪定戦略と組み合わせることで、視覚トランスフォーマーのパラメータ効率の高いファインチューニングを実現し、VPTを上回る性能向上とフルファインチューニングに対する競争力を得る。
As the size of transformer-based models continues to grow, fine-tuning these large-scale pretrained vision models for new tasks has become increasingly parameter-intensive. Parameter-efficient learning has been developed to reduce the number of tunable parameters during fine-tuning. Although these methods show promising results, there is still a significant performance gap compared to full fine-tuning. To address this challenge, we propose an Effective and Efficient Visual Prompt Tuning (E^2VPT) approach for large-scale transformer-based model adaptation. Specifically, we introduce a set of learnable key-value prompts and visual prompts into self-attention and input layers, respectively, to improve the effectiveness of model fine-tuning. Moreover, we design a prompt pruning procedure to systematically prune low importance prompts while preserving model performance, which largely enhances the model's efficiency. Empirical results demonstrate that our approach outperforms several state-of-the-art baselines on two benchmarks, with considerably low parameter usage (e.g., 0.32% of model parameters on VTAB-1k). Our code is available at https://github.com/ChengHan111/E2VPT.
研究の動機と目的
- 性能を損なうことなくファインチューニングパラメータを削減することにより、大規模なビジョン・トランスフォーマーの持続可能なデプロイを促進する。
- 自己注意機構にアーキテクチャを考慮したキーバリュープロンプトを統合することにより、プロンプトベースの適応を強化する。
- 性能を維持するリワインドを伴うトークン単位とセグメント単位の二段階プロンプト剪定でパラメータ数を削減する。
- ViTおよびSwinバックボーン全体および自己教師付き事前学習目的でのVTAB-1kおよびFGVCベンチマークで強い経験的向上を示す。)
提案手法
- 各エンコーダ層の入力トークン列の先頭に視覚プロンプト(P_I)を導入する。
- トランスフォーマーのアテンションのキーと値に結合されるキーバリュープロンプト(P_K, P_V)を導入してアテンションを導く。
- 各層内でプロンプトパラメータを共有して学習可能パラメータを半減する。
- 重要性の低いプロンプトを除去する二段階カスケード剪定(トークン単位およびセグメント単位)を適用し、その後リワインド再訓練段階を行う。)
実験結果
リサーチクエスチョン
- RQ1視覚トランスフォーマーの自己注意機構を明示的に強化することで、プロンプト調整をどのようにより効果的にできるか。
- RQ2大きな性能低下を招くことなく、視覚プロンプト調整におけるパラメータ効率をどこまで押し広げられるか。
主な発見
- E^2VPT は VTAB-1k および FGVC ベンチマークで複数の最先端ベースラインを上回り、VTAB-1k で backbone のパラメータのおおよそ0.32% のみを使用します(ViT-Base/16)。
- 24タスク中21タスクでフルファインチューニングを上回り、一般に VPT を凌駕しつつ、調整可能パラメータを減らしています。
- キーバリュープロンプトは注意の相互作用を改善し、入力のみのプロンプトの制限に対処します。
- リワインドを伴う二段階剪定は、パラメータを大幅に削減しつつ性能を維持または向上させます(例: ViT-Base/16 の場合調整されたパラメータ0.39%)。
- E^2VPT は Swin バックボーンへの一般化と自己教師付き事前学習目的(MAE、MoCo v3)への強い一般化も示します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。