[論文レビュー] Brittlebench: Quantifying LLM robustness via prompt sensitivity
Brittlebench はタスク難易度とプロンプト誘発変動を分離してモデルの脆さを定量化する分散分解フレームワークを導入し、セマンティクスを保持するプロンプト摂動を用いて frontier 及び商用 LLM を評価します。
Existing evaluation methods largely rely on clean, static benchmarks, which can overestimate true model performance by failing to capture the noise and variability inherent in real-world user inputs. This is especially true for language models, which can face human-generated text queries containing mistakes, typos, or alternative ways of phrasing the same question. In this work, we introduce a theoretical framework for quantifying model sensitivity to prompt variants, or brittleness, that can enable us to disentangle data-induced difficulty from prompt-related variability. Using this framework, we design a novel evaluation pipeline, Brittlebench, to holistically evaluate the sensitivity of frontier models. We apply semantics-preserving perturbations to a suite of popular benchmarks, and observe model performance to degrade as much as 12%. However, these perturbations do not affect all models equally: even a single perturbation alters the relative ranking of models in 63% of cases, impacting conclusions about comparative model performance. Decomposing the total variance of both state-of-the-art open-weight and commercial models, we find that semantics-preserving input perturbations can account for up to half of the performance variance for a given model. Brittlebench highlights the need for more robust evaluations and models, and allows us to systematically understand model brittleness.
研究の動機と目的
- 動機: 静的ベンチマークはノイズのある多様なプロンプトに対する現実世界の頑健性を誤って表す可能性がある。
- 目的: プロンプトの言い換えが性能変動(脆さ)にどれほど寄与するかを、内在的なタスク難易度とは分離して定量化する。
- 狙い: セマンティクス保持の摂動の統一的分類法と、ベンチマークとモデルファミリー全体でモデル頑健性を測定するメタ評価パイプラインを開発する。
提案手法
- 観測された正確さの分散をデータ難易度 (V_data) と摂動感度 (V_brittleness) に分解する分散分解フレームワークを提案する。
- モデルレベルとベンチマークレベルの脆さスコア (Pi_m, Pi_b) を、総分散の摂動による割合として定義する。
- 摂動の分類法を作成する(語の操作、文脈増強、プロンプト余白付与、パラフレーズ、数学/コード摂動)。
- 既存ベンチマーク(MMLU、TruthfulQA、ARC、MathQA、GPQA、LogiQA)に意味論を保持する摂動を適用し、フロンティアおよびオープンウェイトモデルに加え、商用モデル(GPT-5、Claude 4.5 Opus、Llama3、Qwen3)を評価する。
- 意味論をコサイン類似度チェックで制御し、オープンウェイトモデルには log-prob ベースのスコアリングを用い、商用モデルには API プロンプトを用いた評価ハ harness を用いる。
実験結果
リサーチクエスチョン
- RQ1標準ベンチマークで観測されるモデル性能の変動のうち、内在的なタスク難易度よりもプロンプト摂動がどれくらい寄与しているのか?
- RQ2意味論を保持する摂動は一貫して性能を低下させるのか、低下はモデル規模、タスク、プロンプティング戦略(ゼロショット vs フew-shot)で異なるのか?
- RQ3摂動のタイプと強度は、フロンティアとオープンウェイトモデルのランキングと頑健性にどう影響するのか?
- RQ4試験時の戦略は脆さを緩和できるか、思考過程(チェーン・オブ・ソート)と摂動下での頑健性の相互作用はどうなるのか?
主な発見
- 意味論を保持する摂動はモデルとベンチマークを問わず性能を低下させ、表面形の変更が最大の低下を招くことが多い(いくつかの設定で約12%程度)。
- プロンプト摂動はオープンウェイトモデルで63%のケースでモデルランキングを変える可能性があり、ランキングの変動は摂動タイプに依存する。
- 摂動誘発の分散は多くのオープンウェイトモデルで総分散の約半分程度を占めることがあり、入力変動への頑健性はモデル挙動の別の軸であることを示す。
- プロンプト余白付与と語レベルの摂動は特に few-shot 設定で脆さを増幅しやすく、LLM が生成するパラフレーズは比較的害が少ない。
- 組み合わせ摂動は、単純な摂動の和として現れない非加法効果を示し、時には最大約45%程度の劣化を生むことがあり、総合的な degradation を生む。
- 思考過程は精度を向上させる一方で、摂動下での脆さを大きく緩和するには至らない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。