Skip to main content
QUICK REVIEW

[论文解读] Grables: Tabular Learning Beyond Independent Rows

Tamara Cucumides, Floris Geerts|arXiv (Cornell University)|Feb 3, 2026
Machine Learning in Healthcare被引用 0
一句话总结

本文引入 grables,一种将表格提升到图的方式与在该图上进行预测的实现解耦的模块化接口,并展示通过图结构显式体现的跨行关系在某些任务上优于纯行本地的表格模型,混合方法常常表现最佳。

ABSTRACT

Tabular learning is still dominated by row-wise predictors that score each row independently, which fits i.i.d. benchmarks but fails on transactional, temporal, and relational tables where labels depend on other rows. We show that row-wise prediction rules out natural targets driven by global counts, overlaps, and relational patterns. To make "using structure" precise across architectures, we introduce grables: a modular interface that separates how a table is lifted to a graph (constructor) from how predictions are computed on that graph (node predictor), pinpointing where expressive power comes from. Experiments on synthetic tasks, transaction data, and a RelBench clinical-trials dataset confirm the predicted separations: message passing captures inter-row dependencies that row-local models miss, and hybrid approaches that explicitly extract inter-row structure and feed it to strong tabular learners yield consistent gains.

研究动机与目标

  • 澄清为何在事务性、时间序列和关系表中,目标依赖于跨行关系时行本地预测器表现不佳。
  • 提出 grables 作为一个模块化接口,将表到图的构建与基于图的预测分离。
  • 刻画行本地模型与消息传递图模型之间的表达能力差距。
  • 在合成数据、交易数据和 RelBench 临床试验数据上进行经验验证以证明分离性。
  • 证明暴露跨行结构的混合模型在性能上优于纯表格或纯图基线。

提出的方法

  • 将 grables 定义为一对:一个将表映射到具有一对一行到节点映射的图的图构造器,以及一个在图上工作的节点预测器。
  • 形式化 Grabular 表达能力,以在不同图视图下比较行本地和基于图的预测。
  • 使用入度图展示跨行依赖如何使目标变量在行本地模型无法达到,并在固定视图下量化 MPNN 的界限。
  • 分析逻辑表达能力(FO、GML)并将其与有界深度的 MPNN 联系起来。
  • 在合成任务和真实数据集(零售交易、RelBench rel-trial)上进行实验,以区分结构表示能力与优化效应。
  • 评估将显式跨行结构引入到强表学习者中的混合模型,在 RelBench-rel-trial 上优于纯表格或纯图方法。
Figure 1 : Incidence-grable patterns for our four tasks. Row nodes (circles) connect to column–value nodes (squares) via typed edges. (a) Unique : a column–value node adjacent to a single row node. (b) Count : the degree of a shared column–value node. (c) Double : a length-3 pattern $v_{r}\!-\!u_{i,
Figure 1 : Incidence-grable patterns for our four tasks. Row nodes (circles) connect to column–value nodes (squares) via typed edges. (a) Unique : a column–value node adjacent to a single row node. (b) Count : the degree of a shared column–value node. (c) Double : a length-3 pattern $v_{r}\!-\!u_{i,

实验结果

研究问题

  • RQ1何时对跨行结构的建模能真正优于行本地预测?
  • RQ2在真实表派生图上,行本地表格模型与消息传递模型之间的表达能力差距有多大?
  • RQ3是否能将显式跨行结构与强表格预测器有效结合以提升性能?
  • RQ4不同的图视图(构造器)如何影响可学习的目标和预测器能力?
  • RQ5在合成数据和真实数据上,混合方法是否始终优于纯表格或纯图方法?

主要发现

  • 行本地预测器仅限于对在表扩展下不变的目标,并且错过由计数、重叠或共享见证驱动的扩展敏感型目标。
  • 入度图能显式表达跨行依赖,并且在若干任务上可以被常数深度的 MPNN 处理;Diamond 需要共享见证,在入度图上超出有界深度的 MPNN 能力。
  • 在合成数据和真实交易数据上,基于入度图的 GNN 在 Unique 与 Count 任务上优于行本地模型,TabPFN 的增益较弱。
  • 暴露跨行结构给强表学习者的混合模型,在 RelBench-rel-trial 上持续优于纯表格或纯图方法。
  • 结构特征(固定聚合)或学习的 GNN 嵌入能补充表格特征,置换分析显示在混合模型中 GNN 派生的嵌入在顶部特征中占据主导。
  • 总体而言,表格表示与基于图的表示是互补的;将显式结构与表学习结合可以缓解行本地的局限性。
Figure 2 : F1-score in validation, test and stress data of RealMLP in Unique, and LightGBM in Double and Diamond tasks.
Figure 2 : F1-score in validation, test and stress data of RealMLP in Unique, and LightGBM in Double and Diamond tasks.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。