[論文レビュー] Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery
本論文は、ソフトプロンプトを連続的に更新し最も近い語彙埋め込みに射影することにより離散的なハードプロンプトを最適化する勾配ベースの手法PEZを提案します。これにより、画像生成と言語分類の両方のハードプロンプトの有効性と、モデル間の転移性が実現します。
The strength of modern generative models lies in their ability to be controlled through text-based prompts. Typical "hard" prompts are made from interpretable words and tokens, and must be hand-crafted by humans. There are also "soft" prompts, which consist of continuous feature vectors. These can be discovered using powerful optimization methods, but they cannot be easily interpreted, re-used across models, or plugged into a text-based interface. We describe an approach to robustly optimize hard text prompts through efficient gradient-based optimization. Our approach automatically generates hard text-based prompts for both text-to-image and text-to-text applications. In the text-to-image setting, the method creates hard prompts for diffusion models, allowing API users to easily generate, discover, and mix and match image concepts without prior knowledge on how to prompt the model. In the text-to-text setting, we show that hard prompts can be automatically discovered that are effective in tuning LMs for classification.
研究の動機と目的
- 手作業で作成することなく、ハードで人間に読めるプロンプトを自動的に学習可能にする。
- ソフトプロンプトの最適化と離散的なハードプロンプトの橋渡しを行い、携帯性と解釈性を確保する。
- 拡散モデルを用いた画像生成タスクと言語分類タスクでの有効性を実証する。
- 学習済みプロンプトのモデル間転移性と、解釈性のための流暢さ制約の利点を示す。
提案手法
- 連続的なプロンプト埋め込みを維持し、離散性を強制するため各埋め込みを最も近いトークン埋め込みへ射影する。
- プロンプトのバッチを放送して得られるタスク特定の損失で勾配を計算し、連続的プロンプトを更新する。
- 離散最適化と量子化ネットワーク研究をヒントに勾配ベースのスキームでハードプロンプトを最適化する。
- 画像とテキストの整合性のためのCLIPベースの損失を適用し、拡散モデルを導くキャプションを発見する。
- 言語モデルへ適用する際には、解釈可能なプロンプトのための流暢さペナルティとタスク損失を組み合わせて拡張する。
実験結果
リサーチクエスチョン
- RQ1勾配ベースの最適化は、解釈可能でモデル間で転移可能な離散的ハードプロンプトを信頼性高く学習できるか。
- RQ2学習済みのハードプロンプトは、テキスト対画像生成およびテキスト対テキスト分類において、ベースラインと比較してどの程度性能を発揮するか。
- RQ3プロンプトの長さと流暢さ制約が性能と転移性に与える影響はどうなるか。
- RQ4CLIPガイダンスを通じて画像から発見されたプロンプトを、拡散モデルを効果的に誘導するために直接使用できるか。
- RQ5長いプロンプトの結合、短く蒸留したプロンプトへの圧縮、スタイル転移への使用は、効果を維持できるか。
主な発見
| #トークン | 要件 | LAION | MS COCO | Celeb-A | Lexica.art |
|---|---|---|---|---|---|
| 8 | PEZ (Ours) with CLIP | 0.697 | 0.674 | 0.602 | 0.711 |
| 8 | PEZ (Ours) with Bank | 0.702 | 0.689 | 0.629 | 0.740 |
| ~77 | CLIP Interrogator | 0.707 | 0.690 | 0.558 | 0.762 |
| ~77 | CLIP Interrogator without BLIP | 0.677 | 0.674 | 0.572 | 0.737 |
| 8 | PEZ (Ours) + Bank | 0.702 | 0.689 | 0.629 | 0.740 |
| 8 | CLIP Interrogator + Bank + BLIP | 0.539 | 0.575 | 0.360 | 0.532 |
| 16 | CLIP Interrogator + Bank + BLIP | 0.650 | 0.650 | 0.491 | 0.671 |
| 32 | CLIP Interrogator + Bank + BLIP | 0.694 | 0.663 | 0.540 | 0.730 |
| 8 | Soft Prompt | 0.408 | 0.420 | 0.451 | 0.554 |
- 学習されたハードプロンプト(PEZ)は、複数データセットで画像生成のためのCLIPベースの類似度スコアを競合レベルで達成しつつ、いくつかのベースラインよりはるかに少ないトークンを使用する。
- キーワードバンクやCLIPベースの指針を用いたPEZは、CLIPインタロゲーターの性能に匹敵または近似しつつ、トークン数を減らし、重い補助モデルを必要としない。
- 言語タスクでは、流暢さ制約の有無にかかわらず、PEZはGPT-2ファミリやより大規模なLMs間で転移精度が競争力を持ち、AGNEWSでいくつかのベースラインより上回る。
- 長いプロンプトは過適合し転移性能が短く蒸留されたプロンプトより劣る傾向があり、画像生成タスクでは約16トークンが経験的に最適な長さである。
- PEZで学習したプロンプトは流暢さを強制するとモデル間での転移が改善され、結合や蒸留は意味の損失を大きくすることなくプロンプトを構成・圧縮できる。
- 安全性の懸念として、プロンプトがコンテンツフィルタを回避し、特定のAPIで禁止コンテンツを再現する可能性が議論されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。