Skip to main content
QUICK REVIEW

[論文レビュー] Black-box Prompt Learning for Pre-trained Language Models

Shizhe Diao, Zhichao Huang|arXiv (Cornell University)|Jan 21, 2022
Topic Modeling被引用数 30
ひとこと要約

論文は Black-Box Discrete Prompt Learning (BDPL) を提案し、離散プロンプトを用いて凍結された事前学習言語モデルを適応させる。これらは分散減少方策勾配で最適化され、パラメータや勾配へのアクセスなしに API 出力のみを使用する。BDPL はクラウドデバイス設定で複数データセットにおいて大幅な改善を達成し、few-shot、データサイズ、予算制約の下で転移性と頑健性を実証する。

ABSTRACT

The increasing scale of general-purpose Pre-trained Language Models (PLMs) necessitates the study of more efficient adaptation across different downstream tasks. In this paper, we establish a Black-box Discrete Prompt Learning (BDPL) to resonate with pragmatic interactions between the cloud infrastructure and edge devices. Particularly, instead of fine-tuning the model in the cloud, we adapt PLMs by prompt learning, which efficiently optimizes only a few parameters of the discrete prompts. Moreover, we consider the scenario that we do not have access to the parameters and gradients of the pre-trained models, except for its outputs given inputs. This black-box setting secures the cloud infrastructure from potential attack and misuse to cause a single-point failure, which is preferable to the white-box counterpart by current infrastructures. Under this black-box constraint, we apply a variance-reduced policy gradient algorithm to estimate the gradients of parameters in the categorical distribution of each discrete prompt. In light of our method, the user devices can efficiently tune their tasks by querying the PLMs bounded by a range of API calls. Our experiments on RoBERTa and GPT-3 demonstrate that the proposed algorithm achieves significant improvement on eight benchmarks in a cloud-device collaboration manner. Finally, we conduct in-depth case studies to comprehensively analyze our method in terms of various data sizes, prompt lengths, training budgets, optimization objectives, prompt transferability, and explanations of the learned prompts. Our code will be available at https://github.com/shizhediao/Black-Box-Prompt-Learning.

研究の動機と目的

  • クラウド API のためモデルのパラメータ/勾配にアクセスできない場合の大規模 PLM の効率的な適応を動機づけ、解決する。
  • パラメトリックなモデルを勾配伝播させずにプロンプトを最適化する離散プロンプト学習フレームワーク(BDPL)を提案する。
  • BDPL が多様なタスクとデータレジームで性能を向上させ、データプライバシーとコスト効率を維持することを示す。

提案手法

  • 各プロンプト位置について独立したカテゴリー分布を用いた離散トークン選択としてプロンプト学習を定式化する。
  • 高分散勾配推定量に対処するため分散を低減させたポリシー勾配推定量でプロンプトトークン分布を最適化する。
  • 学習した離散プロンプトを入力系列の先頭に付与し、PLM をフリーズする。プロンプト分布のみを勾配なし最適化で更新する。
  • 表現力と扱いやすさのバランスを取るため PMI ベースの n-gram を用いて候補プロンプト語彙を構築する。
  • プロンプト分布に対して射影的確率的勾配降下更新を行い、確率 simplex 制約を課す。
  • BDPL を GPT-3 と RoBERTa-Large の白箱および他の黒箱ベースラインと比較するコスト意識の実験設定を提供する。

実験結果

リサーチクエスチョン

  • RQ1ブラックボックス設定(PLM のパラメータ/勾配へのアクセスなし)で最適化された離散プロンプトトークンは、競争力のあるまたは優れたタスク性能を生み出せるか。
  • RQ2データサイズ、プロンプト長、トレーニング予算が BDPL の性能と安定性にどう影響するか。
  • RQ3BDPL 学習済みプロンプトのタスク間・ドメイン間の転移性はどうか。
  • RQ4few-shot レジーム下で BDPL と既存の黒箱・白箱 prompting 法を比較するとどうなるか。
  • RQ5BDPL のアブレーションとケーススタディからどのような洞察(データサイズ、プロンプト、目的)が得られるか。

主な発見

  • BDPL はベースラインの黒箱手法より顕著な改善を達成し、GPT-3 のファインチューニングと比較して eleven データセットで競争力を示す。
  • BDPL はいくつかの白箱プロンプト法と同等かそれ以上を達成し、few-shot 設定で過剰適合を抑制することで一部を上回る。
  • BDPL は few-shot およびドメインシフト状況で強い性能を示し、離散プロンプトは予測 API との直接的な互換性を可能にする。
  • BDPL はデータサイズ依存性を示し、データが増えると改善が見られ、予算制約下ではおおよそ50トークンのプロンプト長が最適となる。
  • BDPL プロンプトは感情分析タスクで転移性を示し、未知のターゲットドメインに適用しても利益を維持する。
  • タスクを横断して BDPL は頑健性とスケーラビリティを維持し、クラウドデバイス協調のためのモデルサイズを増やす代替手段として有効である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。