[论文解读] Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks
该论文引入 Network-of-Thought (NoT),一种由自我生成控制器引导的基于图的推理框架,并在多项基准上与 Chain-of-Thought (CoT) 和 Tree-of-Thought (ToT) 进行比较,使用 GPT-4o-mini 与开源模型,结果显示 NoT 在多跳推理和多源信息推理任务中表现出色,而 CoT 在序列任务中仍然最强。
Existing prompting paradigms structure LLM reasoning in limited topologies: Chain-of-Thought (CoT) produces linear traces, while Tree-of-Thought (ToT) performs branching search. Yet complex reasoning often requires merging intermediate results, revisiting hypotheses, and integrating evidence from multiple sources. We propose Network-of-Thought (NoT), a framework that models reasoning as a directed graph with typed nodes and edges, guided by a heuristic-based controller policy. Across four benchmarks (GSM8K, Game of 24, HotpotQA, ProofWriter) and three models (GPT-4o-mini, Llama-3.3-70B-Instruct, Qwen2.5-72B-Instruct), we investigate when network topology outperforms chain or tree structures, whether LLM-generated heuristics can guide graph-based reasoning search, and the computation-accuracy tradeoff across topologies, evaluating each method on accuracy, topology simplicity, and token efficiency. Our results show that CoT remains effective for sequential tasks with GPT-4o-mini (89.5\% on GSM8K), while NoT surpasses ToT on multi-hop reasoning (91.0\% vs.\ 88.0\% on HotpotQA with LLM-as-Judge). With 72B open-source models, NoT achieves the highest accuracy on GSM8K (91.5\%), and Qwen2.5-72B achieves the best multi-hop QA result overall (91.7\% on HotpotQA). Self-generated controller heuristics outperform fixed and random strategies on logical reasoning, with uncertainty-only weighting achieving 57.0\% on ProofWriter. We also find that evaluation methodology significantly impacts method rankings: string-match underestimates all methods on open-ended QA, with the largest gap for NoT, a pattern consistent across all three models (14--18 percentage point gap on HotpotQA).
研究动机与目标
- 形式化推理拓扑的分类(链、树、网络)及其权衡。
- 提出带有启发式引导控制器的 NoT,在有类型的图结构推理框架中扩展节点。
- 评估自我生成的控制器权重启发式及其对性能的影响。
- 在不同基准上评估拓扑的有效性、效率及评估方法对结果的影响。
提出的方法
- 将推理表示为带有类型节点(事实、子目标、约束、结论)和带有类型边(依赖、支持、派生、矛盾)的有向图。
- 引入一个控制器,使用不确定性、依赖程度和冲突的权重来对未解决节点进行评分,权重甚至可能由大语言模型本身生成(自我生成的启发式)。
- 使用三阶段的 NoT 流水线:图初始化、通过对LLM调用的迭代图基扩展、以及由基于LLM的语义评判者评估的答案提取。
- 在 GSM8K、Game of 24、HotpotQA、ProofWriter 等数据集上,将 NoT 与 CoT 及 ToT 在 GPT-4o-mini、Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct 上进行对比。
- 采用两种评估方案(字符串匹配与将LLM作为评判者)来评估准确性,并分析评估方法如何影响拓扑排序。
实验结果
研究问题
- RQ1RQ1:在什么情况下需要网络推理拓扑,而不是链式或树状结构?
- RQ2RQ2:自我生成的启发式是否能够提升网络推理?
- RQ3RQ3:各推理拓扑在计算成本与准确性之间的权衡如何?
主要发现
- CoT 仍然在序列任务(如 GSM8K)中表现最佳。
- NoT 在多跳推理方面优于 ToT(如 HotpotQA:NoT Judge 91.0% vs ToT Judge 88.0%)。
- 在 72B 开放模型下,NoT 实现了最高的 GSM8K 准确率(91.5%),而 Qwen2.5-72B-Instruct 在 HotpotQA 上达到多跳问答的最高分(91.7%)。
- 自我生成的控制器启发式在逻辑推理中优于固定/随机策略(ProofWriter:54.0% 对 51.3% 固定;仅不确定性加权就达到 57.0%)。
- 评估方法显著影响方法排名:字符串匹配低估 NoT 的表现,特别是在 HotpotQA 上存在 14–18 点的差距。
- NoT 图在推理复用和多源信息整合方面具有优势,与 ToT 相比,在中等标记成本下仍能达到竞争性的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。