QUICK REVIEW

[論文レビュー] E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning

Cheng Han, Qifan Wang|arXiv (Cornell University)|Jul 25, 2023

Domain Adaptation and Few-Shot Learning被引用数 10

ひとこと要約

E^2VPT は自己注意と入力層に学習可能なキーバリュープロンプトと視覚プロンプトを導入し、二階層プロンプト剪定戦略と組み合わせることで、視覚トランスフォーマーのパラメータ効率の高いファインチューニングを実現し、VPTを上回る性能向上とフルファインチューニングに対する競争力を得る。

ABSTRACT

As the size of transformer-based models continues to grow, fine-tuning these large-scale pretrained vision models for new tasks has become increasingly parameter-intensive. Parameter-efficient learning has been developed to reduce the number of tunable parameters during fine-tuning. Although these methods show promising results, there is still a significant performance gap compared to full fine-tuning. To address this challenge, we propose an Effective and Efficient Visual Prompt Tuning (E^2VPT) approach for large-scale transformer-based model adaptation. Specifically, we introduce a set of learnable key-value prompts and visual prompts into self-attention and input layers, respectively, to improve the effectiveness of model fine-tuning. Moreover, we design a prompt pruning procedure to systematically prune low importance prompts while preserving model performance, which largely enhances the model's efficiency. Empirical results demonstrate that our approach outperforms several state-of-the-art baselines on two benchmarks, with considerably low parameter usage (e.g., 0.32% of model parameters on VTAB-1k). Our code is available at https://github.com/ChengHan111/E2VPT.

研究の動機と目的

性能を損なうことなくファインチューニングパラメータを削減することにより、大規模なビジョン・トランスフォーマーの持続可能なデプロイを促進する。
自己注意機構にアーキテクチャを考慮したキーバリュープロンプトを統合することにより、プロンプトベースの適応を強化する。
性能を維持するリワインドを伴うトークン単位とセグメント単位の二段階プロンプト剪定でパラメータ数を削減する。
ViTおよびSwinバックボーン全体および自己教師付き事前学習目的でのVTAB-1kおよびFGVCベンチマークで強い経験的向上を示す。）

提案手法

各エンコーダ層の入力トークン列の先頭に視覚プロンプト（P_I）を導入する。
トランスフォーマーのアテンションのキーと値に結合されるキーバリュープロンプト（P_K, P_V）を導入してアテンションを導く。
各層内でプロンプトパラメータを共有して学習可能パラメータを半減する。
重要性の低いプロンプトを除去する二段階カスケード剪定（トークン単位およびセグメント単位）を適用し、その後リワインド再訓練段階を行う。）

実験結果

リサーチクエスチョン

RQ1視覚トランスフォーマーの自己注意機構を明示的に強化することで、プロンプト調整をどのようにより効果的にできるか。
RQ2大きな性能低下を招くことなく、視覚プロンプト調整におけるパラメータ効率をどこまで押し広げられるか。

主な発見

E^2VPT は VTAB-1k および FGVC ベンチマークで複数の最先端ベースラインを上回り、VTAB-1k で backbone のパラメータのおおよそ0.32% のみを使用します（ViT-Base/16）。
24タスク中21タスクでフルファインチューニングを上回り、一般に VPT を凌駕しつつ、調整可能パラメータを減らしています。
キーバリュープロンプトは注意の相互作用を改善し、入力のみのプロンプトの制限に対処します。
リワインドを伴う二段階剪定は、パラメータを大幅に削減しつつ性能を維持または向上させます（例: ViT-Base/16 の場合調整されたパラメータ0.39%）。
E^2VPT は Swin バックボーンへの一般化と自己教師付き事前学習目的（MAE、MoCo v3）への強い一般化も示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。