Skip to main content
QUICK REVIEW

[論文レビュー] Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks

Fan Huang|arXiv (Cornell University)|Mar 21, 2026
Advanced Graph Neural Networks被引用数 0
ひとこと要約

本論文は Network-of-Thought (NoT) を導入し、自己生成コントローラに guided されたグラフベースの推論フレームワークを提案する。GPT-4o-mini およびオープンソースモデルを用いた Chain-of-Thought (CoT) および Tree-of-Thought (ToT) との比較を複数のベンチマークで行い、NoT がマルチホップおよび複数ソースからの推論タスクで優れる一方、CoT は連続的タスクで依然最強であることを示す。

ABSTRACT

Existing prompting paradigms structure LLM reasoning in limited topologies: Chain-of-Thought (CoT) produces linear traces, while Tree-of-Thought (ToT) performs branching search. Yet complex reasoning often requires merging intermediate results, revisiting hypotheses, and integrating evidence from multiple sources. We propose Network-of-Thought (NoT), a framework that models reasoning as a directed graph with typed nodes and edges, guided by a heuristic-based controller policy. Across four benchmarks (GSM8K, Game of 24, HotpotQA, ProofWriter) and three models (GPT-4o-mini, Llama-3.3-70B-Instruct, Qwen2.5-72B-Instruct), we investigate when network topology outperforms chain or tree structures, whether LLM-generated heuristics can guide graph-based reasoning search, and the computation-accuracy tradeoff across topologies, evaluating each method on accuracy, topology simplicity, and token efficiency. Our results show that CoT remains effective for sequential tasks with GPT-4o-mini (89.5\% on GSM8K), while NoT surpasses ToT on multi-hop reasoning (91.0\% vs.\ 88.0\% on HotpotQA with LLM-as-Judge). With 72B open-source models, NoT achieves the highest accuracy on GSM8K (91.5\%), and Qwen2.5-72B achieves the best multi-hop QA result overall (91.7\% on HotpotQA). Self-generated controller heuristics outperform fixed and random strategies on logical reasoning, with uncertainty-only weighting achieving 57.0\% on ProofWriter. We also find that evaluation methodology significantly impacts method rankings: string-match underestimates all methods on open-ended QA, with the largest gap for NoT, a pattern consistent across all three models (14--18 percentage point gap on HotpotQA).

研究の動機と目的

  • 推論トポロジー(チェーン、ツリー、ネットワーク)の分類とそのトレードオフを形式化する。
  • 型付きノード(事実、サブゴール、制約、結論)と型付きエッジ(依存、支持、導出、矛盾)を用いた推論表現を提案する。
  • 自己生成のヒューリスティックスを用いたコントローラを導入し、符号化されたノードの展開を行う。
  • 自己生成ヒューリスティクスがコントローラの重み付けに与える影響と性能を評価する。
  • 多様なベンチマークにおけるトポロジーの有効性、効率、評価方法論の影響を評価する。

提案手法

  • 推論を型付きノード(事実、サブゴール、制約、結論)と型付きエッジ(依存、支持、導出、矛盾)の有向グラフとして表現する。
  • 不確実性、依存度、衝突の重みを用いて未解決ノードをスコアリングするコントローラを導入する。これはLLM自体によって生成されうる(自己生成ヒューリスティクス)。
  • 3 段階の NoT パイプラインを使用する:グラフ初期化、LLM 呼び出しによる反復的グラフ展開、LLMベースのセマンティックジャッジによる回答抽出。
  • GSM8K、Game of 24、HotpotQA、ProofWriter で NoT を CoT および ToT と比較する。対象は GPT-4o-mini、Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct。
  • 2 つの評価方式(文字列一致と LLM をジャッジとして用いる評価)を採用し、正確性を評価するとともに評価方法論がトポロジーのランキングに与える影響を分析する。

実験結果

リサーチクエスチョン

  • RQ1RQ1: ネットワーク推論トポロジーは、チェーンやツリー構造よりも必要になるのはどのような場合か。
  • RQ2RQ2: 自己生成ヒューリスティクスはネットワークリ 推論を改善できるか。
  • RQ3RQ3: 推論トポロジー間の計算-精度のトレードオフはどのようになるか。

主な発見

  • CoT は連続タスク(例:GSM8K)で依然として最適。
  • NoT は多段推論で ToT を上回る(例:HotpotQA、NoT Judge 91.0% 対 ToT Judge 88.0%)。
  • 72B のオープンモデルでは NoT が GSM8K の最高精度を達成(91.5%)、Qwen2.5-72B-Instruct は HotpotQA で最高のマルチホップ QA 精度を達成(91.7%)。
  • 自己生成コントローラのヒューリスティクスは固定/ランダム戦略を上回り、論理推論で優位(ProofWriter:54.0% 対 51.3% 固定、不確実性重み付けのみで 57.0%)。
  • 評価方法論は手法のランキングに有意な影響を与える:文字列一致は NoT を過小評価する傾向があり、特に HotpotQA で比較の差が 14–18 ポイントとなる場合がある。
  • NoT のグラフは推論の再利用と複数ソース統合の利点を示し、ToT と比較して中程度のトークンコストで競合理を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。