[논문 리뷰] Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks
본 논문은 자가 생성 컨트롤러가 이끄는 그래프 기반 추론 프레임워크인 Network-of-Thought(NoT)를 소개하고, GPT-4o-mini 및 오픈 소스 모델을 사용한 다수의 벤치마크에서 Chain-of-Thought(CoT)와 Tree-of-Thought(ToT)와 비교합니다. NoT가 다중 홉 및 다중 소스 추론 과제에서 우수함을, CoT가 순차적 과제에서 여전히 가장 강력함을 보여줍니다.
Existing prompting paradigms structure LLM reasoning in limited topologies: Chain-of-Thought (CoT) produces linear traces, while Tree-of-Thought (ToT) performs branching search. Yet complex reasoning often requires merging intermediate results, revisiting hypotheses, and integrating evidence from multiple sources. We propose Network-of-Thought (NoT), a framework that models reasoning as a directed graph with typed nodes and edges, guided by a heuristic-based controller policy. Across four benchmarks (GSM8K, Game of 24, HotpotQA, ProofWriter) and three models (GPT-4o-mini, Llama-3.3-70B-Instruct, Qwen2.5-72B-Instruct), we investigate when network topology outperforms chain or tree structures, whether LLM-generated heuristics can guide graph-based reasoning search, and the computation-accuracy tradeoff across topologies, evaluating each method on accuracy, topology simplicity, and token efficiency. Our results show that CoT remains effective for sequential tasks with GPT-4o-mini (89.5\% on GSM8K), while NoT surpasses ToT on multi-hop reasoning (91.0\% vs.\ 88.0\% on HotpotQA with LLM-as-Judge). With 72B open-source models, NoT achieves the highest accuracy on GSM8K (91.5\%), and Qwen2.5-72B achieves the best multi-hop QA result overall (91.7\% on HotpotQA). Self-generated controller heuristics outperform fixed and random strategies on logical reasoning, with uncertainty-only weighting achieving 57.0\% on ProofWriter. We also find that evaluation methodology significantly impacts method rankings: string-match underestimates all methods on open-ended QA, with the largest gap for NoT, a pattern consistent across all three models (14--18 percentage point gap on HotpotQA).
연구 동기 및 목표
- 추론 토폴로지(체인, 트리, 네트워크)의 분류 체계와 그 트레이드오프를 형식화한다.
- 타입이 지정된 그래프 기반 추론 프레임워크에서 노드를 확장하는 휴리스틱으로 가이드되는 컨트롤러를 갖춘 NoT를 제안한다.
- 컨트롤러 가중치에 대한 자가 생성 휴리스틱 및 그것이 성능에 미치는 영향을 평가한다.
- 다양한 벤치마크에 걸쳐 토폴로지의 효과성, 효율성, 평가 방법론의 영향력을 평가한다.
제안 방법
- 추론을 유형화된 노드(사실, 하위 목표, 제약, 결론) 및 유형화된 간선(의존한다, 지지한다, 도출한다, 모순된다)으로 구성된 방향 그래프로 표현한다.
- 자가 생성 휴리스틱일 수 있는 LLM 자체가 생성하는 가중치를 사용하여 불확실성, 의존성 정도 및 충돌을 위한 가중치를 사용해 해결되지 않은 노드에 점수를 매기는 컨트롤러를 도입한다(자체 생성 휴리스틱).
- 세 단계의 NoT 파이프라인을 사용한다: 그래프 초기화, LLM 호출을 통한 그래프 기반 확장의 반복, LLM 기반 의미 판단기에 의해 평가된 답의 추출.
- GSM8K, Game of 24, HotpotQA, ProofWriter에서 NoT와 CoT 및 ToT를 비교하고, GPT-4o-mini, Llama-3.3-70B-Instruct, Qwen2.5-72B-Instruct에 걸쳐 평가한다.
- 정확도를 평가하고 평가 방법론이 토폴로지 순위를 어떻게 좌우하는지 분석하기 위해 두 가지 평가 체계(string-match 및 LLM-판사 사용)를 채택한다.
실험 결과
연구 질문
- RQ1RQ1: 네트워크 추론 토폴로지가 체인이나 트리 구조에 비해 언제 필요한가?
- RQ2RQ2: 자가 생성 휴리스틱이 네트워크 추론을 향상시킬 수 있는가?
- RQ3RQ3: 추론 토폴로지 간 계산-정확도 거래는 어떠한가?
주요 결과
- CoT는 순차적 작업에서 여전히 최적이다(예: GSM8K).
- NoT는 다중 홉 추론에서 ToT를 능가한다(예: HotpotQA: NoT Judge 91.0% vs ToT Judge 88.0%).
- 72B 규모의 오픈 모델에서 NoT는 GSM8K 정확도 최고를 달성한다(91.5%), Qwen2.5-72B가 HotpotQA에서 최대 다중 홉 QA를 달성한다(91.7%).
- 자가 생성 컨트롤러 휴리스틱은 논리적 추론에서 고정적/무작위 전략보다 더 우수하다(ProofWriter: 54.0% 대 51.3% 고정; 불확실성 가중치만으로도 57.0%).
- 평가 방법론은 방법 순위에 실질적으로 편향을 준다: string-match는 NoT를 과소평가하고, 특히 HotpotQA에서(일부 비교에서 14~18포인트 차이).
- NoT 그래프는 추론 재사용 및 다중 소스 통합의 이점을 보여주며, NoT가 ToT에 비해 중간 토큰 비용으로도 경쟁력 있는 정확도를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.