[論文レビュー] Prefix-Tuning: Optimizing Continuous Prompts for Generation
Prefix-tuningは言語モデルを凍結し、生成を導く小さな連続プレフィックスを訓練します。1000x fewer parametersで微調整と同等の結果を達成し、低データ設定および外挿設定での性能が向上します。
Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning for natural language generation tasks, which keeps language model parameters frozen, but optimizes a small continuous task-specific vector (called the prefix). Prefix-tuning draws inspiration from prompting, allowing subsequent tokens to attend to this prefix as if it were "virtual tokens". We apply prefix-tuning to GPT-2 for table-to-text generation and to BART for summarization. We find that by learning only 0.1\% of the parameters, prefix-tuning obtains comparable performance in the full data setting, outperforms fine-tuning in low-data settings, and extrapolates better to examples with topics unseen during training.
研究の動機と目的
- 大規模事前学習言語モデルを生成タスクで用いる際の、完全微調整の軽量代替を動機づける。
- LMパラメータを固定したまま、小さな連続プレフィックスを訓練する方法を導入する。
- Table-to-textと要約(抽象的要約)におけるPrefix-tuningの効率性と有効性を示す。
- 完全データ、低データ、および外挿シナリオでのPrefix-tuningを評価し、一般化とスケーラビリティを評価する。
提案手法
- 自己回帰型LMまたはエンコーダ-デコーダモデルの入力の前に訓練可能な連続プレフィックスを追加する。
- プレフィックスを、安定性のためにMLPで再パラメータ化された size |P_idx| x dim(h_i) の訓練可能な行列 P_theta で表現する。
- 訓練中はLMパラメータ phi を凍結し、プレフィックスパラメータ theta のみを最適化する。
- プレフィックス活性化をランダムまたは実語の活性化で初期化し、特に低データ設定で初期化の影響を示す。
- Prefix-tuningを、テーブルからテキスト(GPT-2系列)と要約(BART)で、微調整、トップレイヤー微調整、アダプターチューニングと比較する。
- 標準的な生成目的(対数尤度)を使用し、ビーム検索など一貫したデコード設定を適用する。
実験結果
リサーチクエスチョン
- RQ1小さな連続プレフィックスだけで、LMの全パラメータを更新せずに生成タスクを導くことができるか?
- RQ2Table-to-textと要約において、完全データと低データの体制で、Prefix-tuningは完全微調整や軽量ベースラインとどう比較されるか?
- RQ3Prefix-tuningは、未見のトピックやドメインへの一般化(外挿)において、微調整よりも優れているか?
- RQ4プレフィックスの長さ、初期化、および位置(プレフィックス対インフィックス)が性能に与える影響は?
- RQ5多数のタスク/ユーザーを想定したパーソナライズのシナリオで、Prefix-tuningはスケーラブルでバッチ対応可能か?
主な発見
- パラメータの0.1%を更新するだけで、Prefix-tuningはTable-to-textで微調整と同等の性能を達成する。
- 低データ設定で、Prefix-tuningはタスクを横断して微調整を上回る。
- Prefix-tuningは未見のテーマへの外挿において、微調整よりも優れた性能を示す。
- Prefix-tuningはGPT-2 mediumからlargeへスケールし、タスク固有パラメータを大幅に削減しつつ高い性能を維持する。
- 実語の活性化での初期化は性能を向上させ、特に低データ設定で効果が大きい。
- Prefix-tuningはAdapter-tuningと比較してPareto効率が高く、はるかに少ないパラメータで同等以上の結果を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。