[論文レビュー] Universal Self-Consistency for Large Language Model Generation
USCはLLM自体を用いて複数候補の中で最も一貫性の高い出力を選択し、自由形式生成タスクの自己一貫性を実現する。適用可能な場合には標準的な自己一貫性と同等かそれに近い性能を達成する。
Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.
研究の動機と目的
- 自己一貫性を自由形式生成タスクへ拡張し、厳密一致の回答抽出を必要としない状態を実現する。
- LLMベースの一貫性評価が多様なタスクで高品質な出力を選択できることを示す。
- 適用可能なタスクで実行トレースを必要とせず、USCが標準的な自己一貫性に匹敵するか、近接することを示す。
提案手法
- LLMから複数の回答をサンプリングする。
- サンプルを連結し、最も一貫性の高いものを最終回答として選択するようLLMにプロンプトする。
- 数学的推論、コード生成、長文要約、オープンエンドQAに渡ってUSCを適用する。
- 適用可能な場合にはUSCと貪欲法、ランダム、標準的自己一貫性(SC)を比較する。
- タスク固有の指標で評価する(例:GSM8K、MATH、BIRD-SQL、ARCADE、GovReport、SummScreen、TruthfulQA)。
- 候補応答の数や応答順序に対する頑健性を検討し、応答選択基準のアブレーションを行う。

実験結果
リサーチクエスチョン
- RQ1さまざまな形式(数値、オープンエンドのリスト、コード、要約)で最も一貫性のある出力を信頼性高く選択できる単一のLMLベース選択基準は成立するか。
- RQ2完全一致回答が利用可能なタスクにおいて、USCは標準の自己一貫性の性能と同等か、それに近づくか。
- RQ3SCが適用できない自由形式生成タスク(要約・オープンエンドQAなど)でUSCはどのように機能するか。
- RQ4候補応答の数と応答順序がUSCの性能に及ぼす影響はどの程度か。
主な発見
| モデル | アプローチ | GSM8K | MATH | データセット | アプローチ | 実行精度 | 有効効率スコア | データセット | アプローチ | ROUGE-1 | ROUGE-2 | ROUGE-Lsum | BERTScore | モデル | アプローチ | GPT-judge | GPT-info |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PaLM 2-L | Greedy decoding | 85.7 | 30.8 | ||||||||||||||
| PaLM 2-L | Random | 82.9 | 28.0 | ||||||||||||||
| PaLM 2-L | SC (Wang et al., 2022) | 90.4 | 37.9 | ||||||||||||||
| PaLM 2-L | USC | 90.2 | 37.4 | ||||||||||||||
| gpt-3.5-turbo | Greedy decoding | 73.4 | 33.2 | ||||||||||||||
| gpt-3.5-turbo | Random | 68.5 | 26.3 | ||||||||||||||
| gpt-3.5-turbo | SC | 78.5 | 38.0 | ||||||||||||||
| gpt-3.5-turbo | USC | 77.8 | 38.1 | ||||||||||||||
| Greedy decoding | BIRD-SQL | 42.4 | 44.4 | ||||||||||||||
| Random | BIRD-SQL | 41.9 | 44.0 | ||||||||||||||
| SC-Exec | BIRD-SQL | 45.6 | 48.1 | ||||||||||||||
| USC | BIRD-SQL | 45.5 | 48.8 | ||||||||||||||
| Greedy decoding | ARCADE | 26.0 | N/A | ||||||||||||||
| Random | ARCADE | 26.8 | N/A | ||||||||||||||
| SC-Exec (strict match) | ARCADE | 29.8 | N/A | ||||||||||||||
| SC-Exec (fuzzy match) | ARCADE | 30.3 | N/A | ||||||||||||||
| USC | ARCADE | 30.1 | N/A | ||||||||||||||
| Greedy decoding | GovReport | N/A | N/A | ROUGE-1 38.8 | ROUGE-2 16.9 | ROUGE-Lsum 33.8 | BERTScore 62.7 | ||||||||||
| Random | GovReport | N/A | N/A | ROUGE-1 38.5 | ROUGE-2 16.9 | ROUGE-Lsum 33.6 | BERTScore 62.6 | ||||||||||
| USC | GovReport | N/A | N/A | ROUGE-1 40.2 | ROUGE-2 17.4 | ROUGE-Lsum 35.1 | BERTScore 62.8 | ||||||||||
| Greedy decoding | SummScreen | N/A | N/A | ROUGE-1 30.6 | ROUGE-2 7.5 | ROUGE-Lsum 19.1 | BERTScore 58.7 | ||||||||||
| Random | SummScreen | N/A | N/A | ROUGE-1 30.2 | ROUGE-2 7.3 | ROUGE-Lsum 19.0 | BERTScore 58.6 | ||||||||||
| USC | SummScreen | N/A | N/A | ROUGE-1 31.7 | ROUGE-2 7.8 | ROUGE-Lsum 19.8 | BERTScore 58.3 | ||||||||||
| Greedy decoding | TruthfulQA | N/A | N/A | GPT-judge 62.1 | GPT-info 95.1 | ||||||||||||
| Random | TruthfulQA | N/A | N/A | GPT-judge 62.9 | GPT-info 94.6 | ||||||||||||
| USC | TruthfulQA | N/A | N/A | GPT-judge 67.7 | GPT-info 99.0 | ||||||||||||
| Greedy decoding | TruthfulQA (gpt-3.5-turbo) | 79.8 | 99.7 | ||||||||||||||
| Random | TruthfulQA (gpt-3.5-turbo) | 80.6 | 99.3 | ||||||||||||||
| USC | TruthfulQA (gpt-3.5-turbo) | 82.5 | 99.6 |
- USCは通常、貪欲デコーディングやランダムサンプリングに対してタスク全体で改良をもたらす。
- 数学ベンチマークのGSM8KとMATHでは、USCの性能は標準のSCと同等かそれ以上であり、貪欲/ランダムより優れている。 PaLM 2-LはGSM8Kで90.2%、MATHで37.4%を達成; gpt-3.5-turboは77.8%と38.1%を達成。
- BIRD-SQLとARCADEでは、USCは実行結果を要さずとも実行ベースのSCの性能に匹敵(BIRD-SQLの実行精度45.5%対SC 45.6、ARCADEはUSC 30.1%対SC 29.8/30.3のファジィ/厳密文脈で)。
- 長文コンテキスト要約では、USCはGovReportとSummScreenでROUGE-1/2/LsumおよびBERTScoreをベースラインより改善(GovReport: ROUGE-1 40.2、ROUGE-2 17.4、ROUGE-Lsum 35.1、BERTScore 62.8;SummScreen: ROUGE-1 31.7、ROUGE-2 7.8、ROUGE-Lsum 19.8、BERTScore 58.3)。
- TruthfulQAでは、PaLM 2-Lおよびgpt-3.5-turboの双方で、USCはベースラインの中で最も高い真実性・情報量のスコアを示す(例:PaLM 2-L GPT-judge 67.7 vs 62.1、GPT-info 99.0 vs 95.1)。
- USCの選択は多くのケースでSCの出力と一致するが、サンプル数8対16の regimeで差異があることが示され、USCはSCの効果的で不完全な近似であることを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。