[論文レビュー] Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought
本論文は PRONTOQA を紹介する。正式な証明を含む合成QAデータセットで、LLMの連鎖思考を分析する。モデルは個別の推論ステップを有効に生成できるが、証明計画と複数の推論経路を探索する点で苦戦する。
Large language models (LLMs) have shown remarkable reasoning capabilities given chain-of-thought prompts (examples with intermediate reasoning steps). Existing benchmarks measure reasoning ability indirectly, by evaluating accuracy on downstream tasks such as mathematical reasoning. However, it is unclear how these models obtain the answers and whether they rely on simple heuristics rather than the generated chain-of-thought. To enable systematic exploration of the reasoning ability of LLMs, we present a new synthetic question-answering dataset called PrOntoQA, where each example is generated from a synthetic world model represented in first-order logic. This allows us to parse the generated chain-of-thought into symbolic proofs for formal analysis. Our analysis on InstructGPT and GPT-3 shows that LLMs are quite capable of making correct individual deduction steps, and so are generally capable of reasoning, even in fictional contexts. However, they have difficulty with proof planning: When multiple valid deduction steps are available, they are not able to systematically explore the different options.
研究の動機と目的
- LLMが学習済みの答えを単に引き出すのではなく、連鎖思考を用いて推論するかを評価する。
- 予測されたCoTステップを正解の証明と照合するための、正式に解析可能なデータセット(PRONTOQA)を提供する。
- オントロジーの種類、ホップ数、探索方向といった要因が推論性能にどう影響するかを評価する。
提案手法
- 合成の一階述語論理オントロジーとその証明を生成する。
- 証明を対応するラベル付きの自然言語 CoT トレースに変換する。
- CoT を再度記号形式へ解析して、局所的および全体的な証明の正確さを測定する。
- 制御変数(ホップ数、オントロジーの種類、探索)下で INSTRUCTGPT と GPT-3 を評価する。
- 証明ステップを標準形、原子的/非原子的、妥当性カテゴリに分類して、複数の正確性指標を定義する。
実験結果
リサーチクエスチョン
- RQ1合成オントロジーを推論する際に、LLMはCoTの個別の証明ステップを有効に生成できるか。
- RQ2複数の有効なステップが存在する場合、モデルはグローバルな証明計画能力を示すか。
- RQ3オントロジーの現実性(真/偽/虚構)と探索方向は推論にどう影響するか。
- RQ4正確な推論と表面的なラベル精度との相関が最も高い指標はどれか。
- RQ5モデルサイズが推論能力と校正能力に与える影響はどの程度か。
主な発見
- LLMsは架空のオントロジーでも正しい個別の推論ステップを生成できる。
- 複数の有効なステップが可能な場合、証明計画に苦戦し、不完全な証明や誤答につながる。
- 実世界の知識(真のオントロジー)は推論を改善し、ホップ数への感度を低減する。
- 大型モデルは証明の正確性が高く、無効なステップが少なく、text-davinci-002 は小型バリアントより優れている。
- ラベル精度は厳密な証明精度を厳密には反映しないが、最も寛容な指標(skip や valid proof accuracy など)にはより高く一致する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。