Skip to main content
QUICK REVIEW

[論文レビュー] Prefix-Tuning: Optimizing Continuous Prompts for Generation

Xiang Lisa Li, Percy Liang|arXiv (Cornell University)|Jan 1, 2021
Topic Modeling参考文献 40被引用数 290
ひとこと要約

Prefix-tuningは言語モデルを凍結し、生成を導く小さな連続プレフィックスを訓練します。1000x fewer parametersで微調整と同等の結果を達成し、低データ設定および外挿設定での性能が向上します。

ABSTRACT

Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning for natural language generation tasks, which keeps language model parameters frozen, but optimizes a small continuous task-specific vector (called the prefix). Prefix-tuning draws inspiration from prompting, allowing subsequent tokens to attend to this prefix as if it were "virtual tokens". We apply prefix-tuning to GPT-2 for table-to-text generation and to BART for summarization. We find that by learning only 0.1\% of the parameters, prefix-tuning obtains comparable performance in the full data setting, outperforms fine-tuning in low-data settings, and extrapolates better to examples with topics unseen during training.

研究の動機と目的

  • 大規模事前学習言語モデルを生成タスクで用いる際の、完全微調整の軽量代替を動機づける。
  • LMパラメータを固定したまま、小さな連続プレフィックスを訓練する方法を導入する。
  • Table-to-textと要約(抽象的要約)におけるPrefix-tuningの効率性と有効性を示す。
  • 完全データ、低データ、および外挿シナリオでのPrefix-tuningを評価し、一般化とスケーラビリティを評価する。

提案手法

  • 自己回帰型LMまたはエンコーダ-デコーダモデルの入力の前に訓練可能な連続プレフィックスを追加する。
  • プレフィックスを、安定性のためにMLPで再パラメータ化された size |P_idx| x dim(h_i) の訓練可能な行列 P_theta で表現する。
  • 訓練中はLMパラメータ phi を凍結し、プレフィックスパラメータ theta のみを最適化する。
  • プレフィックス活性化をランダムまたは実語の活性化で初期化し、特に低データ設定で初期化の影響を示す。
  • Prefix-tuningを、テーブルからテキスト(GPT-2系列)と要約(BART)で、微調整、トップレイヤー微調整、アダプターチューニングと比較する。
  • 標準的な生成目的(対数尤度)を使用し、ビーム検索など一貫したデコード設定を適用する。

実験結果

リサーチクエスチョン

  • RQ1小さな連続プレフィックスだけで、LMの全パラメータを更新せずに生成タスクを導くことができるか?
  • RQ2Table-to-textと要約において、完全データと低データの体制で、Prefix-tuningは完全微調整や軽量ベースラインとどう比較されるか?
  • RQ3Prefix-tuningは、未見のトピックやドメインへの一般化(外挿)において、微調整よりも優れているか?
  • RQ4プレフィックスの長さ、初期化、および位置(プレフィックス対インフィックス)が性能に与える影響は?
  • RQ5多数のタスク/ユーザーを想定したパーソナライズのシナリオで、Prefix-tuningはスケーラブルでバッチ対応可能か?

主な発見

  • パラメータの0.1%を更新するだけで、Prefix-tuningはTable-to-textで微調整と同等の性能を達成する。
  • 低データ設定で、Prefix-tuningはタスクを横断して微調整を上回る。
  • Prefix-tuningは未見のテーマへの外挿において、微調整よりも優れた性能を示す。
  • Prefix-tuningはGPT-2 mediumからlargeへスケールし、タスク固有パラメータを大幅に削減しつつ高い性能を維持する。
  • 実語の活性化での初期化は性能を向上させ、特に低データ設定で効果が大きい。
  • Prefix-tuningはAdapter-tuningと比較してPareto効率が高く、はるかに少ないパラメータで同等以上の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。