[論文レビュー] Does Prompt Formatting Have Any Impact on LLM Performance?
本論文は、プロンプトのフォーマットがタスク全体でGPTベースのモデルの性能に大きく影響することを示しており、普遍的に最良のフォーマットは存在しない。GPT-4のようなより大きなモデルはGPT-3.5よりフォーマット変更に対して頑健である。
In the realm of Large Language Models (LLMs), prompt optimization is crucial for model performance. Although previous research has explored aspects like rephrasing prompt contexts, using various prompting techniques (like in-context learning and chain-of-thought), and ordering few-shot examples, our understanding of LLM sensitivity to prompt templates remains limited. Therefore, this paper examines the impact of different prompt templates on LLM performance. We formatted the same contexts into various human-readable templates, including plain text, Markdown, JSON, and YAML, and evaluated their impact across tasks like natural language reasoning, code generation, and translation using OpenAI's GPT models. Experiments show that GPT-3.5-turbo's performance varies by up to 40\% in a code translation task depending on the prompt template, while larger models like GPT-4 are more robust to these variations. Our analysis highlights the need to reconsider the use of fixed prompt templates, as different formats can significantly affect model performance.
研究の動機と目的
- さまざまな人間に読みやすいプロンプトテンプレート(Plain text、Markdown、YAML、JSON)が、さまざまなタスクにおけるGPTモデルの性能に影響を与えるかを調査する。
- 標準化されたベンチマークを用いて、GPT-3.5およびGPT-4のプロンプトフォーマット変更に対する感度を評価する。
- プロンプトが変化したときのモデル出力の一貫性を評価する。
- 異なるGPTモデルおよびファミリー間で、上位フォーマットの転送性を探索する。
提案手法
- 同じタスクコンテキストを4つのプロンプトテンプレート(Plain text、Markdown、YAML、JSON)にフォーマットする。
- Azure OpenAI経由でGPT-3.5-turbo-0613、GPT-3.5-turbo-16k-0613、GPT-4-1106-preview、GPT-4-32k-0613を評価する。
- NL2NL、NL2Code、Code2Codeベンチマーク(MMLU、NER Finance、HumanEval、FIND、CODEXGLUE、HumanEval-X)を使用する。
- テンプレート間の最大/最小性能を用いて感度を算出し、片側対応のt検定を実施する(p値を報告)。
- Shuら(2023年)の一貫性指標(C)を用いてプロンプト間の一貫性を測定する。
- 上位プロンプトのIoU(Intersection-over-Union)を用いてモデル間の転送性を評価する。

実験結果
リサーチクエスチョン
- RQ1プロンプト形式はタスク全体でGPTモデルの性能にどれくらい影響するか?
- RQ2異なる形式でプロンプトを入力した場合、GPTモデルは一貫した出力を生成できるか?
- RQ3GPTモデル全体で普遍的に最適なプロンプト形式があるのか、それとも形式効果はモデル依存が高いか?
- RQ4モデルサイズ(GPT-3.5対GPT-4)は、プロンプトフォーマットへの感度と一貫性にどのように影響するか?
- RQ5トップフォーマットのテンプレートは、モデル間またはモデルファミリー間でどの程度転送可能か?
主な発見
- プロンプト形式の感度は、モデルとタスク全般で統計的に有意である(ほとんどの場合p値 < 0.01)。
- GPT-3.5-turboのバリアントは、フォーマットに応じて大きな性能差を示す(例としてFINDでMarkdownからPlain textへ変更すると最大で200%の改善、MMLUとHumanEvalでも同様の大きな振れ幅)。
- GPT-4モデルはGPT-3.5よりプロンプトフォーマットの変更に対して頑健性が高く、フォーマット間の一貫性が高い(MMLUで一貫性スコアがしばしば>0.5)。
- 普遍的に優れた単一のプロンプト形式は存在せず、形式の好みはモデルによって異なる(例: GPT-3.5-turboはJSONを好み、GPT-4はMarkdownを好む)。
- トップフォーマットのテンプレートは、異なるGPTモデルファミリー間であまり転送性がない(IoUはファミリー間でしばしば<0.2、同一モデルバリアント内では高い)。
- より大きなモデル(GPT-4)は、より小さなモデル(GPT-3.5)より、異なるプロンプト間でより一貫した出力を出す傾向がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。