Skip to main content
QUICK REVIEW

[论文解读] MATA: Multi-Agent Framework for Reliable and Flexible Table Question Answering

Sieun Hyeon, Jusang Oh|arXiv (Cornell University)|Feb 10, 2026
Topic Modeling被引用 0
一句话总结

tldr: MATA 是一个模型无关的多智能体 TableQA 框架,通过轻量工具协调 CoT、PoT 和文本到 SQL 的推理,在开源和专有大模型上提升准确性与效率。

ABSTRACT

Recent advances in Large Language Models (LLMs) have significantly improved table understanding tasks such as Table Question Answering (TableQA), yet challenges remain in ensuring reliability, scalability, and efficiency, especially in resource-constrained or privacy-sensitive environments. In this paper, we introduce MATA, a multi-agent TableQA framework that leverages multiple complementary reasoning paths and a set of tools built with small language models. MATA generates candidate answers through diverse reasoning styles for a given table and question, then refines or selects the optimal answer with the help of these tools. Furthermore, it incorporates an algorithm designed to minimize expensive LLM agent calls, enhancing overall efficiency. MATA maintains strong performance with small, open-source models and adapts easily across various LLM types. Extensive experiments on two benchmarks of varying difficulty with ten different LLMs demonstrate that MATA achieves state-of-the-art accuracy and highly efficient reasoning while avoiding excessive LLM inference. Our results highlight that careful orchestration of multiple reasoning pathways yields scalable and reliable TableQA. The code is available at https://github.com/AIDAS-Lab/MATA.

研究动机与目标

  • 在资源受限和隐私敏感环境中激发对 TableQA 的可靠性.
  • 提出一个将 CoT、PoT 与文本到 SQL 推理结合的模型无关多智能体架构。
  • 引入轻量工具(调度器、置信检查器、格式匹配器)以优化推理和确保输出简洁。
  • 在开源和专有的多种基准上,展示对硬件无关的强性能。

提出的方法

  • 提出三种推理路径(CoT、PoT、text-to-SQL),由专用代理处理。
  • 使用轻量工具(调度器、置信检查器、格式匹配器)来管理推理流程和输出格式。
  • 采用三阶段过程:候选生成、带调试的改进、基于置信度的最终选择。
  • 为 PoT/t2SQL 输出引入调试循环,使用 Python/SQL 调试器在执行前纠正代码。
  • 在从 WikiTQ、TabMWP、TabFact 构建的大型合成 TableQA 数据集上对 Scheduler 和 Confidence Checker 进行训练,涵盖多种 LLM。
  • 在 Penguins in a Table 与 TableBench 上,用十个 LLM 进行评估,使用 EM、模糊匹配和逐边 token 的 F1。

实验结果

研究问题

  • RQ1一个模型无关的多智能体框架是否能够在 TableQA 任务中对不同 LLM 实现最先进的准确率?
  • RQ2相比单一路径方法,协调多种推理路径(CoT、PoT、text-to-SQL)是否提升可靠性与效率?
  • RQ3轻量工具和优化的调度策略对推理成本和答案质量有何影响?
  • RQ4组件消融(CC、JA、Sch、FM)对整体性能与效率的影响如何?

主要发现

  • MATA 在两项基准测试上对开源 LLMs 实现了最先进的准确率,覆盖不同表格大小和问题类型。
  • 在 TableBench 上,MATA 的表现超过最强基线,EM 提升至最高 40.1%,模糊匹配提升至 46.7%,F1 提升至 33.1%。
  • Confidence Checker 是最关键的模块,移除后准确率显著下降。
  • 使用 Scheduler 可将 Penguins in a Table 的 LLM 代理调用减少 14.6%,TableBench 减少 7.6%,提升效率。
  • CC 在候选项达到置信阈值时可以绕过额外推理,Penguins: JA 调用减少 95.8%,TableBench: 60.6%。
  • 消融结果表明,平衡使用多样化推理路径在复杂任务上实现最佳的多样性、准确性和成本折中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。