[論文レビュー] PPT: Pre-trained Prompt Tuning for Few-shot Learning
PPT は統合された自己教師付きタスク上でソフトプロンプトを事前訓練し、プロンプトチューニングを初期化する。これにより、PPT はバニラのプロンプトチューニングを上回り、少数ショットおよび全データ設定でしばしばフルモデルのファインチューニングと競合または超える。
Prompts for pre-trained language models (PLMs) have shown remarkable performance by bridging the gap between pre-training tasks and various downstream tasks. Among these methods, prompt tuning, which freezes PLMs and only tunes soft prompts, provides an efficient and effective solution for adapting large-scale PLMs to downstream tasks. However, prompt tuning is yet to be fully explored. In our pilot experiments, we find that prompt tuning performs comparably with conventional full-model fine-tuning when downstream data are sufficient, whereas it performs much worse under few-shot learning settings, which may hinder the application of prompt tuning in practice. We attribute this low performance to the manner of initializing soft prompts. Therefore, in this work, we propose to pre-train prompts by adding soft prompts into the pre-training stage to obtain a better initialization. We name this Pre-trained Prompt Tuning framework "PPT". To ensure the generalization of PPT, we formulate similar classification tasks into a unified task form and pre-train soft prompts for this unified task. Extensive experiments show that tuning pre-trained prompts for downstream tasks can reach or even outperform full-model fine-tuning under both full-data and few-shot settings. Our approach is effective and efficient for using large-scale PLMs in practice.
研究の動機と目的
- 大規模 PLM に対して、事前訓練と下流タスクをプロンプトチューニングを介して橋渡しする必要性を動機づける。
- 少数ショット設定での初期化を改善するためのソフトプロンプトの事前訓練戦略を提案する。
- 下流の分類タスクを共通の事前訓練フレームワークに統一して、タスク間でプロンプトを一般化する。
- PPT がパラメータ効率を維持しつつ、フルモデルファインチューニングを達成またはそれを超えることを示す。
提案手法
- 下流タスクをパターン-語彙化ペアとして表現し、プロンプトを定式化する。
- タスク形式(文ペア、選択式、単一テキスト)に合わせて自己教師付きタスク上でソフトプロンプトを事前訓練する。
- タスクを単一の多肢選択事前訓練形式に統一して、広い適用性を可能にする。
- 事前訓練済みのソフトプロンプトで下流の PT を初期化し、0.41M のプロンプトパラメータのみを微調整する。
- 英語および中国語の11B PLM に対して、少数ショットおよび全データ設定の下で PPT とその派生を評価する。
実験結果
リサーチクエスチョン
- RQ1事前訓練済みのソフトプロンプトは、大規模 PLM の少数ショット学習におけるプロンプトチューニングの有効性を向上させることができるか。
- RQ2事前訓練によるタスク形式の統一は、プロンプトのタスク間一般化を高めるか。
- RQ3少数ショットおよび全データ規模での精度とばらつきの観点から、PPT はフルモデルのファインチューニングやバニラのプロンプトチューニングとどう比較されるか。
主な発見
- PPT は、少数ショットおよび全データの状況で、バニラのプロンプトチューニングおよび言語モデル適応のベースラインを一般に上回る。
- ハイブリッド PPT(設計されたハードプロンプトと組み合わせたソフトプロンプト)は、英語および中国語のいくつかのタスクで最良の性能をもたらすことが多い。
- PPT は多くのデータセットでフルモデルファインチューニング(FT)を上回るか、ほぼ近づくことができ、事前訓練されたプロンプトによって事前訓練と下流タスクのギャップが埋められることを示している。
- 統一PPT(タスク形式を多肢選択に統合)は、特にラベルが5を超えるタスクで競争力のある結果を達成する。
- PPT は少数ショット結果のばらつきを減らし、シード間でより安定した性能をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。