[論文レビュー] Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
本論文は非ロジットベースの信頼度喚起手法をLLMでベンチマークし、言語表現、整合性ベース、ハイブリッドのアプローチを複数モデル・タスクで比較して、表現された不確実性のキャリブレーションと信頼性を評価します。
Empowering large language models to accurately express confidence in their answers is essential for trustworthy decision-making. Previous confidence elicitation methods, which primarily rely on white-box access to internal model information or model fine-tuning, have become less suitable for LLMs, especially closed-source commercial APIs. This leads to a growing need to explore the untapped area of black-box approaches for LLM uncertainty estimation. To better break down the problem, we define a systematic framework with three components: prompting strategies for eliciting verbalized confidence, sampling methods for generating multiple responses, and aggregation techniques for computing consistency. We then benchmark these methods on two key tasks-confidence calibration and failure prediction-across five types of datasets (e.g., commonsense and arithmetic reasoning) and five widely-used LLMs including GPT-4 and LLaMA 2 Chat. Our analysis uncovers several key insights: 1) LLMs, when verbalizing their confidence, tend to be overconfident, potentially imitating human patterns of expressing confidence. 2) As model capability scales up, both calibration and failure prediction performance improve. 3) Employing our proposed strategies, such as human-inspired prompts, consistency among multiple responses, and better aggregation strategies can help mitigate this overconfidence from various perspectives. 4) Comparisons with white-box methods indicate that while white-box methods perform better, the gap is narrow, e.g., 0.522 to 0.605 in AUROC. Despite these advancements, none of these techniques consistently outperform others, and all investigated methods struggle in challenging tasks, such as those requiring professional knowledge, indicating significant scope for improvement. We believe this study can serve as a strong baseline and provide insights for eliciting confidence in black-box LLMs.
研究の動機と目的
- モデルのロジットやファインチューニングに依存せずにLLMの信頼度喚起手法の必要性を動機付ける(クローズドソースAPIを含む。)
- 3つのファミリー(verbalized、consistency-based、hybrid)を導入し、包括的なベンチマークフレームワークを設定する。
- さまざまな推論タスクとモデルサイズでこれらの手法の性能を分析し、長所・短所・改善の方向性を特定する。
- LLMの信頼性推定におけるキャリブレーション、信頼性、および実務的展開の考慮点に関する洞察を提供する。
提案手法
- 信頼度喚起手法を3カテゴリに定義する:verbalized(直接的に信頼度を出力)、consistency-based(複数の応答を用いて信頼度を推定)、hybrid(両信号を組み合わせ) 。
- 4つのLLM(GPT-3、GPT-3.5、GPT-4、Vicuna)を5つのデータセットで評価し、常識、算術、記号、倫理、専門知識タスクを横断する。
- zero-tuning、logs/embeddingsへのアクセスなしのアプローチを採用;Chain-of-Thought(CoT)、Top-K、Multi-step confidence、self-consistency、induced-consistency、およびhybridizationといった prompting 戦略に依存する。
- タスク全体で信頼度の品質を定量化するために、calibrationとfailure-detection指標(ECE、AUROC、AUPRC-Positive、AUPRC-Negative)を採用する。
- 信頼性を向上させるために、verbalized信号とconsistency信号の集約としてhybrid信頼度を構築する。
- verbalizedプロンプト(素直、CoTベース、多段階、Top-K)およびconsistencyプロンプト(self-consistency、induced-consistency)、およびhybrid手法のためのプロンプトと設定を詳述する。
実験結果
リサーチクエスチョン
- RQ1ロジットやファインチューニングにアクセスできない状況で、LLMはどれだけ不確実性を表現できるか?
- RQ2多様なタスクとモデルを横断して、consistency-basedアプローチは素のverbalized信頼度より優れているか?
- RQ3verbalized信号とconsistency信号を組み合わせたhybridアプローチは、キャリブレーションと故障検出性能を向上させるか?
- RQ4専門知識タスクを含むタスクとモデル依存性の観点で、各信頼度喚起アプローチの長所と限界は何か?
主な発見
| Metric | Method | GSM8K | DateUND | StrategyQA | Prf-Law | Biz-Ethics | Avg |
|---|---|---|---|---|---|---|---|
| ECE | Top-K Verb | 39.8 | 40.1 | 14.0 | 16.7 | 12.4 | 24.6 |
| ECE | CoT Verb | 10.1 | 23.4 | 22.0 | 39.7 | 30.0 | 25.0 |
| ECE | Self-Cons | 6.28 | 17.0 | 23.3 | 26.0 | 20.7 | 18.7 |
| ECE | Induced-Cons | 8.03 | 20.5 | 21.8 | 18.3 | 17.8 | 17.3 |
| ECE | Hybrid (self-cons) | 9.28 | 14.6 | 15.9 | 18.3 | 15.8 | 14.8 |
| ECE | Hybrid (induce) | 7.40 | 17.6 | 15.0 | 12.8 | 18.2 | 14.2 |
| ROC | Top-K Verb | 59.9 | 76.3 | 61.3 | 58.9 | 73.3 | 65.9 |
| ROC | CoT Verb | 54.8 | 57.4 | 59.8 | 52.2 | 56.0 | 56.4 |
| ROC | Self-Cons | 92.7 | 66.8 | 60.8 | 65.6 | 79.0 | 73.0 |
| ROC | Induced-Cons | 88.6 | 67.3 | 61.5 | 59.3 | 71.3 | 69.6 |
| ROC | Hybrid (self-cons) | 92.5 | 68.8 | 66.2 | 65.3 | 79.5 | 74.5 |
| ROC | Hybrid (induce) | 88.8 | 63.8 | 65.6 | 60.4 | 72.4 | 70.2 |
| PR-P | Top-K Verb | 27.7 | 62.8 | 68.4 | 49.3 | 82.2 | 58.1 |
| PR-P | CoT Verb | 81.8 | 76.6 | 72.8 | 49.2 | 64.3 | 68.9 |
| PR-P | Self-Cons | 96.9 | 81.0 | 73.7 | 59.4 | 82.3 | 78.7 |
| PR-P | Induced-Cons | 95.1 | 81.0 | 74.1 | 54.7 | 77.6 | 76.5 |
| PR-P | Hybrid (self-cons) | 97.0 | 84.4 | 78.3 | 60.3 | 83.1 | 80.6 |
| PR-P | Hybrid (induce) | 95.3 | 79.0 | 79.1 | 56.4 | 80.9 | 78.1 |
| PR-N | Top-K Verb | 80.2 | 79.8 | 45.7 | 56.0 | 50.7 | 62.5 |
| PR-N | CoT Verb | 23.1 | 30.7 | 40.5 | 53.9 | 43.7 | 38.4 |
| PR-N | Self-Cons | 79.7 | 44.6 | 39.5 | 63.8 | 63.4 | 58.2 |
| PR-N | Induced-Cons | 71.2 | 44.2 | 41.3 | 58.7 | 55.1 | 54.1 |
| PR-N | Hybrid (self-cons) | 81.5 | 51.8 | 45.8 | 65.3 | 64.9 | 61.9 |
| PR-N | Hybrid (induce) | 73.5 | 42.4 | 45.4 | 60.9 | 57.1 | 55.9 |
- 素直な形式のverbalized信頼度は、モデルとタスクを問わず過信傾向が強い。
- CoT、Top-K、Multi-stepといった prompting 戦略はverbalized信頼度のキャリブレーションを改善し、Top-Kが最も効果的であることが多い。
- consistencyベースの手法は一般にverbalized手法を上回り、特に算術推論タスクで顕著。
- ハイブリッド手法は多くのケースで最先端の性能を達成し、20件中13件でベースラインを上回り、故障検出指標を向上させた。
- 専門知識を要する難解なタスクでは全手法が依然課題を抱え、さらなる改善の余地を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。