QUICK REVIEW

[論文レビュー] P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

Xiao Liu, Kaixuan Ji|arXiv (Cornell University)|Oct 14, 2021

Topic Modeling参考文献 46被引用数 262

ひとこと要約

P-Tuning v2 は、全層にわたり深いプロンプトを用いた慎重に最適化されたプロンプトチューニングが、モデル規模（300M–10Bパラメータ）とNLUタスク全体でファインチューニングに匹敵し、タスク固有パラメータのごくわずかな割合のみを使用できることを示している。

ABSTRACT

Prompt tuning, which only tunes continuous prompts with a frozen language model, substantially reduces per-task storage and memory usage at training. However, in the context of NLU, prior work reveals that prompt tuning does not perform well for normal-sized pretrained models. We also find that existing methods of prompt tuning cannot handle hard sequence labeling tasks, indicating a lack of universality. We present a novel empirical finding that properly optimized prompt tuning can be universally effective across a wide range of model scales and NLU tasks. It matches the performance of finetuning while having only 0.1%-3% tuned parameters. Our method P-Tuning v2 is an implementation of Deep Prompt Tuning \cite{li2021prefix,qin2021learning} optimized and adapted for NLU. Given the universality and simplicity of P-Tuning v2, we believe it can serve as an alternative to finetuning and a strong baseline for future research.Our code and data are released at https://github.com/THUDM/P-tuning-v2.

研究の動機と目的

適切に最適化されたプロンプトチューニングが、幅広いモデルサイズとNLUタスクでファインチューニングに匹敵することを実証する。
入力層だけでなく複数の層でプロンプトを使用する深いプロンプトチューニングのアプローチを開発・検証する。
限られたタスク固有パラメータで競争力のある性能を実現する実用的な最適化と実装の詳細を特定する。

提案手法

多くのトランスフォーマー層に学習可能なプロンプトを挿入して、入力だけでなく深さ方向にもプロンプトチューニングを適用する。
タスクごとに柔軟なプロンプト長を持つ連続プロンプトを使用し、一般に単純なタスクでは短く、難易度の高いシーケンスラベリングタスクでは長く（≈100）とする。
埋め込みとMLPのリパラメータ化オプションを試し、そのタスク依存の影響を分析する。
教師付き設定で語彙化器の代わりにランダムに初期化された線形分類ヘッドを適用する。
タスク間で共有プロンプトを jointly training し、タスク固有の分類器を使用してマルチタスク学習を評価する。

実験結果

リサーチクエスチョン

RQ1多層にわたるプロンプトを含むプロンプトチューニングは、300M–10Bパラメータの幅広いモデル規模でファインチューニングと同等の性能を達成できるか？
RQ2P-Tuning v2 は単純な分類タスクと難しいシーケンスラベリングの両方のNLUタスクに普遍的に有効か？
RQ3プロンプトチューニングとファインチューニングのギャップを埋めるためにどのような最適化・実装の詳細が必要で、深さとプロンプト長は性能にどう影響するか？
RQ4タスク間で共有プロンプトを使用したマルチタスク学習は、P-Tuning v2 のタスク間で追加の利得を提供するか？

主な発見

P-Tuning v2 は、300M から 10B パラメータのモデル規模でファインチューニングと同等の性能を達成する。
P-Tuning v2 はタスクごとに0.1%–3%のタスク固有パラメータのみで競争力のある性能を発揮する。
複数の層に導入された深いプロンプトは、特に小型モデルや難しいタスクで性能を向上させる。
マルチタスク学習は、ほとんどのタスクで P-Tuning v2 の性能を一般的に向上させるが、いくつかの設定ではQAで除外される。
アブレーション研究は、教師あり設定で語彙化器と線形ヘッドの間に有意差を示さず、深いプロンプト深度は浅いプロンプト挿入よりも役立つ傾向がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。