[論文レビュー] Black-Box Tuning for Language-Model-as-a-Service
ブラックボックス調整は、LMaaS の連続プロンプトを乱数サブスペース内で微分非依存の最適化を用いて最適化し、PTMsをサービスとして維持しつつ、勾配ベースの手法と比較して競争力のあるまたは優れた結果を達成します。
Extremely large pre-trained language models (PTMs) such as GPT-3 are usually released as a service. It allows users to design task-specific prompts to query the PTMs through some black-box APIs. In such a scenario, which we call Language-Model-as-a-Service (LMaaS), the gradients of PTMs are usually unavailable. Can we optimize the task prompts by only accessing the model inference APIs? This paper proposes the black-box tuning framework to optimize the continuous prompt prepended to the input text via derivative-free optimization. Instead of optimizing in the original high-dimensional prompt space, which is intractable for traditional derivative-free optimization, we perform optimization in a randomly generated subspace due to the low intrinsic dimensionality of large PTMs. The experimental results show that the black-box tuning with RoBERTa on a few labeled samples not only significantly outperforms manual prompt and GPT-3's in-context learning, but also surpasses the gradient-based counterparts, i.e., prompt tuning and full model tuning.
研究の動機と目的
- LMaaS を、勾配が利用できず、API アクセスのみでプロンプトを最適化する必要があるシナリオとして動機づける。
- Black-Box Tuning (BBT) を提案し、ランダムに埋め込まれたサブスペースでの微分非依存最適化を通じて連続プロンプトを最適化する。
- BBT が、数ショット設定で手動プロンプト、文脈依存学習、勾配ベースのプロンプト/全モデル調整を上回ることを示す。
- BBT が勾配ベースおよび特徴ベースのベースラインに対して、LMaaS の展開と効率性の利点を提供する。
提案手法
- タスクを、入力に連続プロンプト p を追加し、ロジットを出力するブラックボックス PTM API f を用いた分類として定式化する。
- プロンプト空間の次元を、p0 をランダムトークンから初期化し、ランダム射影 Az + p0 を介して低次元サブスペースで z を最適化することにより削減する。
- バックプロパゲーションの代わりに、微分非依存最適化器 CMA-ES を用いて最適化する。
- 最適化を導く目的関数として、クロスエントロピーまたはヒンジ損失(または負の精度)を使用する。
- 文のペアタスクの MNLI でプロンプト埋め込み p0 を事前学習する、あるいは他のタスクに対してランダム埋め込みで初期化する。
- RoBERTa LARGE をバックボーンとして、複数のデータセットに対して few-shot 設定で評価する。
実験結果
リサーチクエスチョン
- RQ1PTM 推論 API のみがアクセス可能で(勾配はない)、連続プロンプトを効果的に最適化できるか。
- RQ2低次元のランダムサブスペースでの微分非依存最適化は、LMaaS 設定で標準タスク上の勾配ベースのプロンプト調整および全モデル調整と同等かそれを上回るか。
- RQ3損失関数(クロスエントロピー、ヒンジ、負の精度)とサブスペースの次元が、ブラックボックスプロンプト調整の性能にどう影響するか。
- RQ4ブラックボックス調整と勾配ベース・特徴ベースのベースラインと比較して、展開・学習時間・メモリ・データ転送の影響はどうか。
- RQ5LMaaS フレームワークにおける文ペアタスクの性能を向上させるための、事前学習済みプロンプト埋め込みの寄与はどの程度か。
主な発見
| 方法 | SST-2 精度 | Yelp P. 精度 | AG’s News 精度 | DBPedia 精度 | MRPC F1 | SNLI 精度 | RTE 精度 | 平均 |
|---|---|---|---|---|---|---|---|---|
| Gradient-Based Methods: Prompt Tuning | 68.23 ± 3.78 | 61.02 ± 6.65 | 84.81 ± 0.66 | 87.75 ± 1.48 | 51.61 ± 8.67 | 36.13 ± 1.51 | 54.69 ± 3.79 | 63.46 |
| Gradient-Based Methods: + Pre-trained prompt | / | / | / | / | 77.48 ± 4.85 | 64.55 ± 2.43 | 77.13 ± 0.83 | 74.42 |
| Gradient-Based Methods: P-Tuning v2 | 64.33 ± 3.05 | 92.63 ± 1.39 | 83.46 ± 1.01 | 97.05 ± 0.41 | 68.14 ± 3.89 | 36.89 ± 0.79 | 50.78 ± 2.28 | 70.47 |
| Gradient-Based Methods: Model Tuning | 85.39 ± 2.84 | 91.82 ± 0.79 | 86.36 ± 1.85 | 97.98 ± 0.14 | 77.35 ± 5.70 | 54.64 ± 5.29 | 58.60 ± 6.21 | 78.88 |
| Gradient-Free Methods: Manual Prompt | 79.82 | 89.65 | 76.96 | 41.33 | 67.40 | 31.11 | 51.62 | 62.56 |
| Gradient-Free Methods: In-Context Learning | 79.79 ± 3.06 | 85.38 ± 3.92 | 62.21 ± 13.46 | 34.83 ± 7.59 | 45.81 ± 6.67 | 47.11 ± 0.63 | 60.36 ± 1.56 | 59.36 |
| Gradient-Free Methods: Feature-MLP | 64.80 ± 1.78 | 79.20 ± 2.26 | 70.77 ± 0.67 | 87.78 ± 0.61 | 68.40 ± 0.86 | 42.01 ± 0.33 | 53.43 ± 1.57 | 66.63 |
| Gradient-Free Methods: Feature-BiLSTM | 65.95 ± 0.99 | 74.68 ± 0.10 | 77.28 ± 2.83 | 90.37 ± 3.10 | 71.55 ± 7.10 | 46.02 ± 0.38 | 52.17 ± 0.25 | 68.29 |
| Black-Box Tuning | 89.56 ± 0.25 | 91.50 ± 0.16 | 81.51 ± 0.79 | 87.80 ± 1.53 | 61.56 ± 4.34 | 46.58 ± 1.33 | 52.59 ± 2.21 | 73.01 |
| + Pre-trained prompt (Black-Box) | / | / | / | / | 75.51 ± 5.54 | 83.83 ± 0.21 | 77.62 ± 1.30 | 83.90 |
- BBT は、評価タスクで手動プロンプトと文脈依存学習をしばしば上回る。
- BBT は、勾配ベースの手法(プロンプト調整、P-Tuning v2)および全モデル調整を、16-shot 設定で7つのタスクの平均で上回る。
- クロスエントロピーとヒンジ損失は、few-shot レジームで負の精度より良いガイダンスを提供する。
- より小さなサブスペース (d が 100–1000) と CMA-ES は有効で、タスク依存の最適な d がある。
- 事前学習済みプロンプト埋め込みは、LMaaS でのプロンプトベース手法を使用する際、NLI タスクの性能を向上させることができる。
- BBT は展開と効率性の利点を提供し、最適化コストは PTM のサイズと独立しており、サーバーサイドでのホスティングが現実的である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。