[論文レビュー] Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting
本論文は、プロンプトのフォーマット変更がLLMの性能に劇的な影響を与えることを分析し、モデルウェイトにアクセスせずに感度を効率的に定量化するFormatSpreadを提案する。
As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats.
研究の動機と目的
- LLMs は意味的に等価でも、プロンプトのフォーマットに非常に敏感であることを示す。
- 多様なタスクにおいて、意味的に等価なプロンプト形式間の性能分布を定量化する。
- モデルウェイトにアクセスせずに、フォーマットをサンプリングし分布を推定する予算意識のある手法を提案する。
- 性能変動に寄与するプロンプトの特徴を特徴付け、フォーマットと内部表現との関連を明らかにする。
提案手法
- 意味的等価性を定義するため、妥当なプロンプト形式の形式文法を開発する。
- 元の形式と等価なフォーマット間の指標 m のレンジとして、性能分布を定義する。
- 高/低性能フォーマットの探索を多腕バンディットとしてモデル化し、ベイズ最適化を適用する。
- FormatSpread を導入する。予算を意識したアルゴリズムで、 Thompson sampling または UCB を用いて限られた評価で分布を推定する。
- Ranking accuracy を主指標として、LLaMA-2 変種、Falcon、GPT-3.5 を含む複数モデルにまたがる Super-NaturalInstructions の53タスクで評価する。
- 埋め込みと主成分分析による特徴寄与とフォーマットの識別性を分析する。
実験結果
リサーチクエスチョン
- RQ1タスクとモデルを横断する意味的に等価なプロンプトフォーマットからどの程度の性能変動が生じるか?
- RQ2モデルサイズの拡大、より多くの few-shot の例の追加、または指示チューニングはフォーマット感度を低減するか?
- RQ3モデルウェイトにアクセスせず、限られた評価で性能分布を効率的に推定できるか?
- RQ4観測されたフォーマット誘導の性能分布と相関する内部のプロンプト埋め込み特性は何か?
- RQ5フォーマット差は異なるモデル間で同様に影響力があるのか。クロスモデル相関が弱いことを示すか?
主な発見
- プロンプトのフォーマットは、同等のフォーマット間でも一部タスクで最大で76ポイントの精度差を生み得る。
- 53タスク全体で中位の分布は7.5ポイント、いくつかのタスクでは70ポイントを超える分布を示す。
- FormatSpread は約51kの評価予算で真の分布を約1ポイントの精度で推定でき、素朴なサンプリングより優れている。
- フォーマット埋め込みの分離性は性能分布と相関し、埋め込みからフォーマットを高精度で識別できる分類器を構築できる。
- 数ショットの増加、モデルサイズの増大、または指示チューニングを行っても、フォーマット効果は持続する。
- フォーマットの性能はモデル間で強い相関を示さないことが多く、クロスモデル比較を難しくする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。