[论文解读] TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models
TabTracer 使用带版本化表状态与逐步校验的执行引导式蒙特卡洛树搜索来提升大语言模型在复杂表格推理中的准确性,并在基线方法之上实现更高的准确性和更低的 token 成本。
Large language models (LLMs) have emerged as powerful tools for natural language table reasoning, where there are two main categories of methods. Prompt-based approaches rely on language-only inference or one-pass program generation without step-level verification. Agent-based approaches use tools in a closed loop, but verification is often local and backtracking is limited, allowing errors to propagate and increasing cost. Moreover, they rely on chain- or beam-style trajectories that are typically combinatorially redundant, leading to high token costs. In this paper, we propose TabTracer, an agentic framework that coordinates multi-step tool calls over intermediate table states, with explicit state tracking for verification and rollback. First, it enforces step-level verification with typed operations and lightweight numeric and format checks to provide reliable rewards and suppress hallucinations. Second, execution-feedback Monte Carlo Tree Search maintains a search tree of candidate table states and uses backpropagated reflection scores to guide UCB1 selection and rollback via versioned snapshots. Third, it reduces redundancy with budget-aware pruning, deduplication, and state hashing with a monotonicity gate to cut token cost. Comprehensive evaluation on TabFact, WikiTQ, and CRT datasets shows that TabTracer outperforms state-of-the-art baselines by up to 6.7% in accuracy while reducing token consumption by 59--84%.
研究动机与目标
- 通过解决幻觉与早期错误传播问题,促使对半结构化表格的鲁棒推理(LLMs)
- 引入一个代理框架,协调对中间表状态的多步工具调用并具备显式状态跟踪
- 提供逐步校验、回溯与预算感知剪枝,以降低 token 成本和搜索冗余
- 在 TabFact、WikiTQ 与 CRT 数据集上展示更高的准确性,同时降低 token 消耗
提出的方法
- 提出 TabTracer,一种具备 Reasoning Layer(预算化的 MCTS)、Execution Layer(有类型的数据框工具)和 Storage Layer(版本化表快照)的代理框架
- 通过带有预/后检查和版本化中间表的有类型表运算符(SelectColumns、FilterRows、GenExeCode)实现逐步校验
- 使用信息引导的蒙特卡洛树搜索维护候选表状态树,反向传播反思分数,并通过版本化快照实现回滚
- 应用预算感知剪枝、状态哈希以及单调性门控,抑制近重复的扩展并限制 token 使用
- 利用基于反思的奖励信号引导 MCTS,并使用利用缓存元数据的回退打分器进行鲁棒评估
- 证明 TabTracer 相较最新基线在准确性上提升多达 6.7%,同时将 token 消耗降低 59–84%

实验结果
研究问题
- RQ1逐步校验与基于执行的奖励在降低 LLM 表格推理中的数值幻觉方面的作用?
- RQ2通过执行反馈的 MCTS 的回溯是否能提升对早期错误的鲁棒性?
- RQ3预算感知剪枝和状态重用是否在不损失准确性的前提下降低复杂表格推理的 token 成本?
- RQ4相较基线,在标准表格推理基准(TabFact、WikiTQ、CRT)上,TabTracer 的实证收益是多少?
主要发现
- TabTracer 在 TabFact、WikiTQ 与 CRT 数据集上实现了比最先进基线高出多达 6.7% 的准确性
- 相对于基线,token 消耗降低 59–84%
- 带类型运算符的逐步校验抑制了数值幻觉并防止跨步错误传播
- 执行反馈的 MCTS 通过利用版本化快照实现回滚与子路径替换,从而实现可靠的回溯
- 预算感知剪枝与状态哈希减少冗余扩展,在固定 token 预算下维持进度

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。