[論文レビュー] HyperPrompt: Prompt-based Task-Conditioning of Transformers
HyperPrompt は、HyperNetwork 生成のハイパープロンプトのセットを自己注意に注入して Transformer をタスク条件付けすることで、最小限の追加パラメータと高い効率性で強力なマルチタスク性能を実現します。完全にファインチューニングした場合、モデルサイズを問わず GLUE/SuperGLUE のいくつかのベースラインを上回ります。
Prompt-Tuning is a new paradigm for finetuning pre-trained language models in a parameter-efficient way. Here, we explore the use of HyperNetworks to generate hyper-prompts: we propose HyperPrompt, a novel architecture for prompt-based task-conditioning of self-attention in Transformers. The hyper-prompts are end-to-end learnable via generation by a HyperNetwork. HyperPrompt allows the network to learn task-specific feature maps where the hyper-prompts serve as task global memories for the queries to attend to, at the same time enabling flexible information sharing among tasks. We show that HyperPrompt is competitive against strong multi-task learning baselines with as few as $0.14\%$ of additional task-conditioning parameters, achieving great parameter and computational efficiency. Through extensive empirical experiments, we demonstrate that HyperPrompt can achieve superior performances over strong T5 multi-task learning baselines and parameter-efficient adapter variants including Prompt-Tuning and HyperFormer++ on Natural Language Understanding benchmarks of GLUE and SuperGLUE across many model sizes.
研究の動機と目的
- HyperPrompt を導入する、マルチタスク学習のためのプロンプトベースの、タスク条件付けされた Transformer アーキテクチャ。
- 自己注意に注入されるハイパープロンプトが、効率的なパラメータ使用でタスク固有のメモリを提供することを示す。
- HyperNet 生成のプロンプトが柔軟なタスク共有とタスク間の Pareto 効率的な性能を実現することを示す。
- GLUE および SuperGLUE に対して、T5 モデルサイズ全体でマルチタスクのベースラインやパラメータ効率的アダプタと比較する。
- 難易度の高いタスクにおける全パラメータの調整とタスク特化パラメータの調整とのトレードオフを強調する。
提案手法
- 各 Transformer ブロックのマルチヘッド自己注意において、キーと値に対して l 個の学習可能なハイパープロンプトを注入する。
- Global なタスクプロンプトから層特異的およびタスク特異的ハイパープロンプトを生成する HyperNetworks を用いる(HyperPrompt-Global)か、タスク特異的なローカルプロンプト(HyperPrompt-Share/Sep)を用いる。
- HyperPrompt-Global の場合、層認識タスク埋め込みで条件付けされたグローバル HyperNetworks によって射影行列を生成し、P^m_{τ,k} および P^m_{τ,v} を得る。
- ローカル HyperNetworks にはボトルネック構造を採用してパラメータの増加を抑える(D, U のダウン/アップ射影)。
- 全パラメータのファインチューニングと、タスク条件付けパラメータ調整のみを評価してパレート効率とモデル性能を評価する。
- GLUE および SuperGLUE で T5 バリアントを用いて、MTL ベースライン、Vanilla Adapter、HyperFormer++、Prompt-Tuning と比較する。
実験結果
リサーチクエスチョン
- RQ1HyperNetwork 生成のハイパープロンプトが自己注意に注入され、GLUE/SuperGLUE で標準的なマルチタスク学習やパラメータ効率的アダプタを上回ることができるか?
- RQ2HyperPrompt-Global は、性能、パラメータ効率、タスク間の情報共有の観点で HyperPrompt-Share/Sep とどのように比較されるか?
- RQ3SuperGLUE のような難易度の高いタスクにおいて、全モデルをファインチューニングする方が、タスク条件付きパラメータのみを調整するより Pareto 効率が良くなるか?
- RQ4ハイパープロンプトの長さとエンコーダ/デコーダのどこにプロンプトを挿入するかが、性能と効率に与える影響は何か?
- RQ5提案手法はモデルサイズとタスク数の増加とともにどのようにスケールするか?
主な発見
- HyperPrompt-Global は XXL までの T5 モデルで SuperGLUE における最先端性能を達成する。
- HyperPrompt-Global は HyperFormer++ および MTL のベースラインを、追加パラメータがわずか 0.14% で上回る。
- 全ファインチューニングは、タスク特異パラメータのみを調整する場合より SuperGLUE でより大きな改善をもたらす。
- HyperPrompt-Global は、アダプタや Prompt-Tuning と比べて、計算量(FLOPs)が低く、精度も競争力のある有利なバランスを提供する。
- HyperPrompt-Global は GLUE/SuperGLUE のベンチマークで T5 Base および Large のいずれでも一貫してベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。