[论文解读] TabSieve: Explicit In-Table Evidence Selection for Tabular Prediction
TabSieve 引入了一个先选择再预测的框架,在预测前明确选择表内证据,通过合成轨迹进行训练,并通过 TAB-GRPO 强化,提升少样本上下文中的分类和回归性能。
Tabular prediction can benefit from in-table rows as few-shot evidence, yet existing tabular models typically perform instance-wise inference and LLM-based prompting is often brittle. Models do not consistently leverage relevant rows, and noisy context can degrade performance. To address this challenge, we propose TabSieve, a select-then-predict framework that makes evidence usage explicit and auditable. Given a table and a query row, TabSieve first selects a small set of informative rows as evidence and then predicts the missing target conditioned on the selected evidence. To enable this capability, we construct TabSieve-SFT-40K by synthesizing high-quality reasoning trajectories from 331 real tables using a strong teacher model with strict filtering. Furthermore, we introduce TAB-GRPO, a reinforcement learning recipe that jointly optimizes evidence selection and prediction correctness with separate rewards, and stabilizes mixed regression and classification training via dynamic task-advantage balancing. Experiments on a held-out benchmark of 75 classification and 52 regression tables show that TabSieve consistently improves performance across shot budgets, with average gains of 2.92% on classification and 4.45% on regression over the second-best baseline. Further analysis indicates that TabSieve concentrates more attention on the selected evidence, which improves robustness to noisy context.
研究动机与目标
- 通过确保证据被明确识别并使用,促成鲁棒的表格内上下文学习。
- 开发一个两阶段训练流程,将对合成证据选择轨迹的有监督微调与强化学习用于联合证据选择与预测相结合。
- 通过任务-优势平衡解决分类与回归在早期阶段的优化失衡。
- 在多枪量级下展示对表内嘈杂上下文的鲁棒性提升,以及对所选证据的注意力增强。
提出的方法
- 通过从 331 张真实表格中提取推理轨迹,使用强教师模型并进行严格筛选,构建 TabSieve-SFT-40K。
- 采用两阶段学习的模型:对 TabSieve-SFT-40K 进行冷启动 SFT,随后用 TAB-GRPO 进行强化学习,以联合优化证据选择与预测。
- 使用任务-优势平衡机制,稳定分类与回归任务的联合优化。
- 在强化学习中为证据选择准确性、预测正确性和输出格式正确性设计奖励。
- 在75张分类表格和52张回归表格的保留基准上,在零-shot 与少样本设置下进行评估。
- 分析对证据行的注意力转移以及对嘈杂上下文的鲁棒性。
实验结果
研究问题
- RQ1RQ1: 显式证据选择轨迹能否引导模型在表格内上下文学习中将注意力集中到证据行吗?
- RQ2RQ2: 对嘈杂上下文的依赖在显式证据选择轨迹下是否会主动误导模型?
- RQ3RQ3: 显式证据选择是否在少样本情境下提高分类与回归任务的预测鲁棒性与准确性?
- RQ4RQ4: 在 RL 过程中,分类与回归任务的任务优势平衡如何影响联合优化?
- RQ5RQ5: 合成的推理轨迹是否为后续强化学习提供了有效的初始化?
主要发现
- TabSieve 在75张分类表格和52张回归表格以及各种样本量设置下始终优于第二好基线。
- 分类方面相较第二好方法平均提升 2.92%;回归方面相较第二好方法平均提升 4.45%。
- 显式证据选择使注意力集中在证据行,减轻嘈杂上下文的负面影响。
- 证据选择消融实验显示,移除 <select> 步骤或证据奖励都会降低性能,验证了其价值。
- TAB-GRPO 搭配任务优势平衡稳定联合优化,尤其在分类任务上带来显著收益。
- 在零样本和少样本设置下,TabSieve 优于通用及表格聚焦的大语言模型,并且随着样本预算增加仍保持鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。