[論文レビュー] To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
メタ分析と実験は、Chain-of-Thought (CoT) prompts が主に数学と記号的推論に役立つことを示しており、非記号的タスクではCoTはほとんどまたは全く利益をもたらさず、ツールを補助した解法に凌駕されることがある。研究はCoTの選択的な使用を主張し、 prompting を超えて中間計算を活用する代替案の必要性を訴えている。
Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
研究の動機と目的
- prompt-based CoT が広範なタスクとモデル群で性能を改善する条件を評価する。
- 文献メタ分析と新規実験を通じて、記号的・数学・論理・非記号的領域におけるCoTの影響を定量化する。
- 記号的推論におけるCoTの価値を理解するために、計画と実行を分離する。
- CoTとツール補助アプローチを比較し、相対的な強みと限界を評価する。
- プロンプトベースのCoT を超えて、中間計算をより効果的に活用する方向性を示す。
提案手法
- 1,218 件の CoT 対 direct-answer 比較を、2024年 ICLR/NAACL/EACL 会場からの 110 論文(14モデル、264データセット)で Systematic meta-analysis。
- タスクを14カテゴリに分類(例:記号的/アルゴリズム、数学、論理推論、百科知識、混合データセット)。
- 20データセットで、14の最新LLMを用いた零-shotおよび少数ショット prompting での大規模実験。
- 出力に等号記号が含まれるかどうかに注意して、零-shot CoT と direct prompts を評価。
- 計画と実行を調べるため、symbolic plans を作成し、Plan+Direct Solver、Plan+CoT Solver、Plan+Tool Solver の構成をテスト。

実験結果
リサーチクエスチョン
- RQ1CoT prompts から利益を得られるタスクタイプは何か(記号的、数学的、論理的、非記号的)?
- RQ2CoT はデータセットとモデル全体でどの程度性能を改善し、直接 prompting とどう比較されるか?
- RQ3計画と実行を分離し外部ツールを使用することで、記号的推論タスクで CoT を上回ることができるか?
- RQ4推論コストの観点で CoT は代替アプローチよりコスト対効果が高いか?
- RQ5プロンプトベースの CoT から、より統合的な推論パラダイムへ移行する示唆は何か?
主な発見
- CoT は主に数学、記号的推論、および論理的推論タスクで顕著な利得をもたらす。
- 文献と実験を通じて、非記号的タスクではCoT の利点が少なく、またはほぼ無いことが多く、直接 prompting が同等に機能するケースが多い。
- MMLU では、CoT の利得の最大 95% が等号記号を含む質問や出力に起因しており、すなわち記号的推論を含む場合に限られる。
- 計画と実行を分離するとCoT は実行を改善するが、外部の記号的ソルバーは計画と実行の両方でCoTを上回ることがある。
- ツール補助解法(Plan+Tool Solver)は、記号的領域で Plan+CoT をしばしば上回り、CoT が外部ツールなしでは限界を持つことを示唆する。
- 総じて、CoT は選択的かつコスト削減の余地があり、 promptingベースのCoT を超えた中間計算を活用するアプローチを推進する可能性がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。