[論文レビュー] Self-Consistency Improves Chain of Thought Reasoning in Language Models
本論文は self-consistency を導入します。これは多様な chain-of-thought パスをサンプルし、最も一貫した最終解を集約するデコーディング戦略で、追加の訓練なしに算術および常識タスク全般で推論精度を大幅に向上させます。
Chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propose a new decoding strategy, self-consistency, to replace the naive greedy decoding used in chain-of-thought prompting. It first samples a diverse set of reasoning paths instead of only taking the greedy one, and then selects the most consistent answer by marginalizing out the sampled reasoning paths. Self-consistency leverages the intuition that a complex reasoning problem typically admits multiple different ways of thinking leading to its unique correct answer. Our extensive empirical evaluation shows that self-consistency boosts the performance of chain-of-thought prompting with a striking margin on a range of popular arithmetic and commonsense reasoning benchmarks, including GSM8K (+17.9%), SVAMP (+11.0%), AQuA (+12.2%), StrategyQA (+6.4%) and ARC-challenge (+3.9%).
研究の動機と目的
- 標準的な chain-of-thought prompting を超える大規模言語モデルの推論改善を動機づける。
- 最も信頼性の高い答えを識別するために、多様な推論パスを生成するデコーディング手法を提案する。
- 複数のモデルと推論ベンチマークにおいて頑健性と性能向上を示す。
- このアプローチが追加の監視やファインチューニングを必要としないことを示す。
- モデル出力からの不確実性推定と推論根拠の収集の可能性を探る。
提案手法
- 前の CoT prompting のように chain-of-thought の exemplars でモデルを促す。
- 温度/トップ-k/核サンプリング戦略を用いて、モデルのデコーダーから多様な推論パスをサンプルする。
- サンプルされた推論パスを周辺化し、最も一貫した答えを選択するために最終回答を集約する(多数決や加重集計)。
- 各サンプルパスを、推論ステップと最終回答を結ぶ潜在変数として扱い、追加の補助モデルを訓練しない。
- 集約戦略(多数決 vs. 加重和)を比較し、最も一貫した回答がより良い性能を発揮することを示す。
- self-consistency は教師なし、モデル非依存であり、ファインチューニングや追加のアノテーションを必要としないことを示す。
実験結果
リサーチクエスチョン
- RQ1サンプリングによって推論パスに多様性を導入すると、グリーディな chain-of-thought デコーディングを超えて最終回答の正確性が向上しますか。
- RQ2複数のサンプルパスから最終回答をどのように集約して正確性を最大化すべきですか。
- RQ3self-consistency アプローチはモデル規模、 prompting 戦略、サンプリングパラメータを横断して頑健ですか。
- RQ4self-consistency は不確実性推定を提供したり、プロンプトが不完全な状況を支援できますか。
- RQ5self-consistency は sample-and-rank、ビーム探索、従来のアンサンブルとどう比較されますか。
主な発見
- Self-consistency は算術および常識タスク全般で標準の chain-of-thought prompting より著しい精度向上をもたらす。
- 利益はより大きなモデル(例: LaMDA-137B、PaLM-540B、GPT-3)で大きく、いくつかのベンチマークで新しい最先端水準に到達する。
- GSM8K、SVAMP、AQuA、StrategyQA、ARC-challenge などのタスクで、報告された改善はそれぞれ最大で +17.9%、 +11.0%、 +12.2%、 +6.4%、 +3.9% となる。
- 多くのサンプルパスを正規化加重和または多数決で集計する方法は、重み付けなしのアプローチや単一パスのグリーディングデコーディングを上回る。
- Self-consistency はサンプリング戦略とモデルプロンプトに頑健で、 chain-of-thought が標準 prompting を損なう場合でも性能を向上させ得る。
- sample-and-rank、ビーム探索、アンサンブル法と比較して、self-consistency は単一モデルでより大きな改善をもたらし、追加の訓練は不要。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。