[論文レビュー] Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners
DARTは微分可能なプロンプトとラベルの最適化を導入することで、小規模言語モデルをより強力なfew-shot学習者へと変換し、標準的なファインチューニングを大きく上回る顕著な改善を達成し、15のNLPタスクにおいて最新のプロンプト調整法と競合する結果を示します。
Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance. Code is available in https://github.com/zjunlp/DART.
研究の動機と目的
- 大規模プロンプティングの限界を動機づけ、小規模LMを用いた効率的なプラグイン型少数ショット学習を実現する。
- DifferentiAble pRompT (DART)を提案し、連続空間でプロンプトテンプレートとラベルを最適化する。
- モデル依存性のない適用性と、広範な分類タスクへの拡張性を確保する。
- 補助的な流暢性制約を用いて少数ショット領域での学習を安定化させる。
- 複雑なラベル空間を含むタスクを含む15のNLPデータセット全体で改善を経験的に示す。
提案手法
- 擬似トークンを用いて微分可能なテンプレートを構築し、モデルパラメータを追加することなくバックプロパゲーションで最適化する。
- 語彙内の未使用トークンにマッピングされる学習可能な埋め込みを用いて連続空間でラベルを表現し、外部パラメータ最適化を回避する。
- 補助的な流暢性制約を導入してプロンプト埋め込み間の依存関係を強制し、言語モデルの流暢性を維持する。
- クラス識別(クロスエントロピー)と流暢性制約(二値クロスエントロピー)を組み合わせたジョイント損失を最適化する。
- RoBERTa-largeやGPT-2-mediumなどの異なるPLMとのプラグイン互換性を示し、関係抽出やイベント抽出のようなタスクへの拡張性を示す。
- 従来のファインチューニングやLM-BFF風のプロンプト調整と比較し、少数ショット設定での性能向上を強調する。
実験結果
リサーチクエスチョン
- RQ1小〜中規模の事前学習済み言語モデルを用いた場合、 differentiable prompt and label optimization は少数ショット学習を改善できるか。
- RQ2テンプレートとラベル埋め込みを流暢性制約と共に jointly 最適化すると、固定プロンプトより識別力の高い表現が得られるか。
- RQ3DARTアプローチは多様なNLPタスクやラベル空間に対してプラグイン対応・モデル非依存性を保てるか。
- RQ4複雑なラベル意味論を持つタスク(例:関係抽出、イベント抽出)で、標準的なファインチューニングや既存のプロンプト調整法と比べてDARTはどの程度性能を発揮するか。
主な発見
| Dataset | Model | K=8 | K=16 | K=32 | Full |
|---|---|---|---|---|---|
| SemEval | Fine-tuning | 26.3 | 43.8 | 64.2 | 87.8 |
| SemEval | LM-BFF | 43.2 | 62.0 | 72.9 | 88.0 |
| SemEval | DART | 51.8 | 67.2 | 77.3 | 89.1 |
| TACRED-Revisit | Fine-tuning | 7.4 | 15.5 | 25.8 | 75.0 |
| TACRED-Revisit | LM-BFF | 21.0 | 23.7 | 27.1 | 76.4 |
| TACRED-Revisit | DART | 25.8 | 30.1 | 31.8 | 77.8 |
| Wiki80 | Fine-tuning | 46.3 | 60.3 | 70.0 | 87.5 |
| Wiki80 | LM-BFF | 66.5 | 73.5 | 78.1 | 86.2 |
| Wiki80 | DART | 68.5 | 75.2 | 79.4 | 88.1 |
| ChemProt | Fine-tuning | 30.2 | 41.5 | 52.5 | 79.5 |
| ChemProt | LM-BFF | 55.0 | 56.1 | 60.0 | 79.1 |
| ChemProt | DART | 57.2 | 60.8 | 63.1 | 81.0 |
- DARTは15のNLPデータセットで、少数ショット設定において従来のファインチューニングを一貫して上回る(例:K=8で関係抽出データセットで絶対改善23.28%まで)。
- DARTはLM-BFFと競合する結果を達成し、P-tuningをいくつかのタスクで上回る。特にラベルが複雑な意味論を持つ場合に優位。
- 関係抽出とイベント抽出の多クラス設定において、DARTは少数ショットおよび全監督設定の两で大きな改善を示す(例:TACRED-Revisit、Wiki80、ChemProt)。
- アブレーション研究は、流暢性制約、微分可能テンプレート、微分可能ラベルのすべての要素が性能に寄与しており、特に低リソース領域では微分可能ラベル最適化が顕著な影響を持つ。
- 可視化解析は、微分可能なプロンプトが固定プロンプトより識別力の高いコンパクトな表現を生み出し、精度向上と相関することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。