[論文レビュー] On Verbalized Confidence Scores for LLMs
本論文は、LLMにおける不確実性定量の一般的な手法として、促しとモデルに依存しない形で言語化された信頼度スコアを分析し、その信頼性が促し戦略とモデルサイズに依存することを示し、大規模モデルでは複数の手法を組み合わせると最良の結果が得られることを示している。
The rise of large language models (LLMs) and their tight integration into our daily life make it essential to dedicate efforts towards their trustworthiness. Uncertainty quantification for LLMs can establish more human trust into their responses, but also allows LLM agents to make more informed decisions based on each other's uncertainty. To estimate the uncertainty in a response, internal token logits, task-specific proxy models, or sampling of multiple responses are commonly used. This work focuses on asking the LLM itself to verbalize its uncertainty with a confidence score as part of its output tokens, which is a promising way for prompt- and model-agnostic uncertainty quantification with low overhead. Using an extensive benchmark, we assess the reliability of verbalized confidence scores with respect to different datasets, models, and prompt methods. Our results reveal that the reliability of these scores strongly depends on how the model is asked, but also that it is possible to extract well-calibrated confidence scores with certain prompt methods. We argue that verbalized confidence scores can become a simple but effective and versatile uncertainty quantification method in the future. Our code is available at https://github.com/danielyxyang/llm-verbalized-uq .
研究の動機と目的
- LLM出力における不確実性を定義・定量化し、出力の不確実性指標としての言語化信頼度スコアに焦点を当てる。
- データセットの難易度、モデル容量、促し手法が言語化信頼度スコアの信頼性にどう影響するかを評価する。
- 小規模および大規模LLMの校正を改善するためのプロンプト設計に関する実践的ガイダンスを提供する。
- 言語化不確実性の再現可能な評価コードとベンチマークを提供する。
提案手法
- 不確実性を入力・モデル・出力の成分に分解し、正確性の出力不確実性に焦点を当てる。
- 信頼性指標を定義する: calibration (ECE)、informativeness (異なるスコア、分散)、meaningfulness (KLダイバージョンによるデータセットレベルの分布) 。
- 言語化信頼度スコアを10データセット、11LLM、17のプロンプト手法で評価する。
- 標準化されたプロンプト模板を使用し、回答と信頼度スコアを解析して、形式の変動性を処理するための解析とフィルタリングを行う。
- 小規模対 large LLMでの較正利得を評価するために、基本、高度、組み合わせのプロンプト手法と表現を比較する。
- モデルサイズ、データセット難易度、プロンプト設計に関して結果を分析し、ベストプラクティスを特定する。

実験結果
リサーチクエスチョン
- RQ1異なるデータセットとモデルにおいて、言語化信頼度スコアは不確実性の測定としてどれだけ信頼できるか?
- RQ2プロンプト設計の選択は、言語化信頼度スコアの校正性、情報性、意味性にどう影響するか?
- RQ3より大きなモデルは、校正を改善するために複雑なプロンプト手法からより大きな恩恵を受けるか?
- RQ4大型LLMにおいて、最も良い校正を得るための最適なプロンプト技法の組み合わせは何か、そして小型LLMでは効果は異なるか?
- RQ5言語化信頼度スコアは、多様なタスクで基礎的な正確性をどの程度反映しているか?
主な発見
- 言語化信頼度スコアの校正性はモデルサイズとともに向上し、大規模モデルでは少なくとも70Bパラメータ以上で0.1程度のECEを達成する。
- 小型LLMは単純なプロンプト手法の恩恵を受け、probscore形式が顕著な校正向上をもたらす。
- 大型LLMは複数のプロンプト手法を組み合わせることで恩恵を受け、単純なプロンプトよりも強い校正を実現する。
- 総じて、最も性能の高い大規模モデルの手法(combo)は、評価対象の大型LLM全体で実験的な正確さからの平均偏差を約7%程度低減する。
- Gemma tiny model (2B) は特に校正が不十分で、信頼度と正確性の間の依存関係が弱い。
- プロンプト設計は校正を強く媒介し、いくつかのモデルではバニラプロンプトがより複雑な設定よりも優れており、複雑さが必ずしも有用とは限らないという見方に挑戦する。
- 本研究は再利用可能な評価コードベースを提供し、適切にチューニングされたプロンプトを前提とすれば、言語化信頼度スコアは実践的な不確実性定量化に有望であることを強調している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。