QUICK REVIEW

[論文レビュー] Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning

Zhen Wang, Rameswar Panda|arXiv (Cornell University)|Mar 6, 2023

Topic Modeling被引用数 30

ひとこと要約

MPTは、クロスタスク蒸留と低ランクのタスク固有更新を備えた共有プロンプトを介して単一の転用可能なソフトプロンプトを学習し、非常に少ないチューニング可能パラメータで強力な転移を実現し、いくつかのタスクではフルファインチューニングを上回ることさえある。

ABSTRACT

Prompt tuning, in which a base pretrained model is adapted to each task via conditioning on learned prompt vectors, has emerged as a promising approach for efficiently adapting large language models to multiple downstream tasks. However, existing methods typically learn soft prompt vectors from scratch, and it has not been clear how to exploit the rich cross-task knowledge with prompt vectors in a multitask learning setting. We propose multitask prompt tuning (MPT), which first learns a single transferable prompt by distilling knowledge from multiple task-specific source prompts. We then learn multiplicative low rank updates to this shared prompt to efficiently adapt it to each downstream target task. Extensive experiments on 23 NLP datasets demonstrate that our proposed approach outperforms the state-of-the-art methods, including the full finetuning baseline in some cases, despite only tuning 0.035% as many task-specific parameters.

研究の動機と目的

大規模言語モデルを多くのNLPタスクに適用する際のパラメータコスト削減を動機づける。
分解と蒸留を通じて複数のソースタスクから共有プロンプトを学習するマルチタスクフレームワークを開発する。
共有プロンプトへの低ランク乗法的更新を通じて新しいタスクへの効率的な適応を可能にする。
NLUとNLGタスク、およびさまざまなモデルスケールを横断した広範な転移性を実証する。

提案手法

各ソースタスクのプロンプトPkを、Hadamard積によって共有プロンプトP*と低ランクのタスク固有成分Wkに分解する（Wk = uk ⊗ vk^T）。
ロジットと隠れ状態の損失を用いて、別個に訓練したソースプロンプトから知識を蒸留し、高品質な分解可能な共有プロンプトを学習する。
元のプロンプトチューニングを用いてソースタスクの教師プロンプトを訓練し、次にP*を共有するスチューデントプロンプトを訓練してKL発散と隠れ状態MSEを最小化し、LTotal = LPLM + λ (L_logits + L_hidden)を形成する。
ターゲットタスクに適応するためにP̂t = P* ∘ (ut ⊗ vt^T)で初期化し、タスク固有の損失と共にP*, ut, vtを共同更新する；P*対 ut, vtで異なる学習率を使用する。
適応後、各タスクは(l×d) + (l+d)個の tunable parametersのみ必要となり、総計は(l×d) + (l+d)で、タスクあたりのtun able parametersは0.035%程度に抑えられる（設定による）。
Two-stage workflow: 1) train a single shared prompt via multitask source training with distillation; 2) transfer to target tasks with low-rank multiplicative updates.

実験結果

リサーチクエスチョン

RQ1複数のソースタスクから学習した単一の転用可能プロンプトは、 unseenタスクでタスク固有プロンプトを上回ることができるか？
RQ2共有プロンプトと低ランクのタスク固有成分への分解は、跨タスク転移を改善し干渉を減らすか？
RQ3蒸留損失（ロジットと隠れ状態）は下流の転移のための共有プロンプトの質を改善するか？
RQ4MPTは完全ファインチューニングや他のパラメータ効率的手法と比較して、多様なNLPタスク（NLU/NLG）およびモデルスケールでどう機能するか？
RQ5少数ショットデータはMPTプロンプトの転移性にどのような影響を与えるか？

主な発見

MPTは23のNLPデータセットで強力な結果を達成し、タスク固有パラメータのわずか0.035%を調整するだけでフルファインチューニングを上回ることが多い。
GLUEとSuperGLUEで、MPTはGLUEに対してベースのプロンプトチューニングを相対的に13%改善し、SuperGLUEではベースのPTを16%改善した。
MPTはSPoT、ATTEMPT、BitFitを上回り、はるかに少ないタスク固有パラメータで運用でき、ベンチマークの中にはフルファインチューニングを超えることもある。
プロンプトの分解と蒸留により大きな改善が得られる（SuperGLUEの平均は、分解+蒸留で74.1、分解なしで69.5）。
MPTはNLUソースタスクからNLGターゲットへ学習済みプロンプトを転移させ、BLEUの改善が vanilla PTより3.03%および6.25%である（E2E、WebNLG）。
モデルサイズ別（T5-Small から T5-Large まで）、MPTはパラメータ効率と性能の点で競争力があり、しばしば優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。