QUICK REVIEW

[論文レビュー] Prefix-Tuning: Optimizing Continuous Prompts for Generation

Xiang Lisa Li, Percy Liang|arXiv (Cornell University)|Jan 1, 2021

Topic Modeling参考文献 40被引用数 290

ひとこと要約

Prefix-tuningは言語モデルを凍結し、生成を導く小さな連続プレフィックスを訓練します。1000x fewer parametersで微調整と同等の結果を達成し、低データ設定および外挿設定での性能が向上します。

ABSTRACT

Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning for natural language generation tasks, which keeps language model parameters frozen, but optimizes a small continuous task-specific vector (called the prefix). Prefix-tuning draws inspiration from prompting, allowing subsequent tokens to attend to this prefix as if it were "virtual tokens". We apply prefix-tuning to GPT-2 for table-to-text generation and to BART for summarization. We find that by learning only 0.1\% of the parameters, prefix-tuning obtains comparable performance in the full data setting, outperforms fine-tuning in low-data settings, and extrapolates better to examples with topics unseen during training.

研究の動機と目的

大規模事前学習言語モデルを生成タスクで用いる際の、完全微調整の軽量代替を動機づける。
LMパラメータを固定したまま、小さな連続プレフィックスを訓練する方法を導入する。
Table-to-textと要約（抽象的要約）におけるPrefix-tuningの効率性と有効性を示す。
完全データ、低データ、および外挿シナリオでのPrefix-tuningを評価し、一般化とスケーラビリティを評価する。

提案手法

自己回帰型LMまたはエンコーダ-デコーダモデルの入力の前に訓練可能な連続プレフィックスを追加する。
プレフィックスを、安定性のためにMLPで再パラメータ化された size |P_idx| x dim(h_i) の訓練可能な行列 P_theta で表現する。
訓練中はLMパラメータ phi を凍結し、プレフィックスパラメータ theta のみを最適化する。
プレフィックス活性化をランダムまたは実語の活性化で初期化し、特に低データ設定で初期化の影響を示す。
Prefix-tuningを、テーブルからテキスト（GPT-2系列）と要約（BART）で、微調整、トップレイヤー微調整、アダプターチューニングと比較する。
標準的な生成目的（対数尤度）を使用し、ビーム検索など一貫したデコード設定を適用する。

実験結果

リサーチクエスチョン

RQ1小さな連続プレフィックスだけで、LMの全パラメータを更新せずに生成タスクを導くことができるか？
RQ2Table-to-textと要約において、完全データと低データの体制で、Prefix-tuningは完全微調整や軽量ベースラインとどう比較されるか？
RQ3Prefix-tuningは、未見のトピックやドメインへの一般化（外挿）において、微調整よりも優れているか？
RQ4プレフィックスの長さ、初期化、および位置（プレフィックス対インフィックス）が性能に与える影響は？
RQ5多数のタスク/ユーザーを想定したパーソナライズのシナリオで、Prefix-tuningはスケーラブルでバッチ対応可能か？

主な発見

パラメータの0.1%を更新するだけで、Prefix-tuningはTable-to-textで微調整と同等の性能を達成する。
低データ設定で、Prefix-tuningはタスクを横断して微調整を上回る。
Prefix-tuningは未見のテーマへの外挿において、微調整よりも優れた性能を示す。
Prefix-tuningはGPT-2 mediumからlargeへスケールし、タスク固有パラメータを大幅に削減しつつ高い性能を維持する。
実語の活性化での初期化は性能を向上させ、特に低データ設定で効果が大きい。
Prefix-tuningはAdapter-tuningと比較してPareto効率が高く、はるかに少ないパラメータで同等以上の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。