[論文レビュー] LogicGraph : Benchmarking Multi-Path Logical Reasoning via Neuro-Symbolic Generation and Verification
LogicGraphは多路の論理推論のニューロ symbolic ベンチマークを導入し、 exhaustive minimal-proof paths を生成し、参照不要でソルバー検証のフレームワークを用いて収束思考と発散思考を捉える。
Evaluations of large language models (LLMs) primarily emphasize convergent logical reasoning, where success is defined by producing a single correct proof. However, many real-world reasoning problems admit multiple valid derivations, requiring models to explore diverse logical paths rather than committing to one route. To address this limitation, we introduce LogicGraph, the first benchmark aimed to systematically evaluate multi-path logical reasoning, constructed via a neuro-symbolic framework that leverages backward logic generation and semantic instantiation. This pipeline yields solver-verified reasoning problems formalized by high-depth multi-path reasoning and inherent logical distractions, where each instance is associated with an exhaustive set of minimal proofs. We further propose a reference-free evaluation framework to rigorously assess model performance in both convergent and divergent regimes. Experiments on state-of-the-art language models reveal a common limitation: models tend to commit early to a single route and fail to explore alternatives, and the coverage gap grows substantially with reasoning depth. LogicGraph exposes this divergence gap and provides actionable insights to motivate future improvements. Our code and data will be released at https://github.com/kkkkarry/LogicGraph.
研究の動機と目的
- 単一の正解証明を超える多路(発散的)論理推論の評価を促進する。
- 各問い合わせに対して exhaustively- grounded な最小導出の真実セットを提供する。
- LLM と記号的证明者を組み合わせたニューロ符号論的で参照なしの評価フレームワークを開発する。
- 深さが増すにつれて現在の LLM が複数の妥当な推論パスを探索するのが難しいことを明らかにする。
提案手法
- 後向きロジック DAG 構築により、与えられた結論の exhaustive minimal-support derivations を生成する。
- DAG を Prover9 互換の述語と自然言語の語りへ変換する意味的インスタンス化。
- Prover9 を用いたソルバー主導のフィルタリングで各ステップを検証し、全体的導出可能性と文脈的一貫性を保証する。
- LLM の翻訳と記号的検証を組み合わせたニューロ-symbolic 評価パイプラインで、根拠付けとエラー分析を行う。
実験結果
リサーチクエスチョン
- RQ1LLM は結論に対してすべての有効な導出パスを列挙できるのか(単一の正しい証明だけでなく)?
- RQ2推論の深さは収束的(単一路線) versus 発散的(多路)推論能力に現代の LLM にどのように影響するのか?
- RQ3モデルが多路推論を試みる際の主要な失敗モード(意味論的 vs 論理的)は何か?
- RQ4ニューロ符号的検証器は、LLM を審査役とするベースラインよりオープンエンドの推論評価の信頼性を改善するのか?
主な発見
- LogicGraph は各問い合わせにつき 2–19 の有効パスを生成し、平均深度は 6.01 である。
- モデルは単一路線に固着しがちで、他の経路のカバレッジは推論深度が増すと低下する。
- 推論指向モデルは収束的指標では一般モデルを上回るが、依然として発散的パスのカバレージが限定的。
- 参照なしのニューロ-symbolic 評価者(Prover9 使用)は、LLM を審査役とするベースラインより人間判断との一致度が高い(Acc(S) 98.80%, Acc(P) 95.22%)。
- トップモデルは成功率の飽和に近づくが、発散的指標(多様性、汎用性、オリジナリティ)は依然として大きく低い。
- エラー分析では意味論的理解の問題よりも合理的実行エラー(無効な推論、前提不足)の急増を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。