[论文解读] TabICL: A Tabular Foundation Model for In-Context Learning on Large Data
TabICL 引入了一个可扩展的表格基础模型,能够在大规模表格数据上执行上下文学习(分类,数据集最多 500K samples,500 features)采用两阶段嵌入架构和一个最终的 ICL transformer,在准确性方面具有竞争力,并且推断速度显著快于此前基于 TABPFN 的方法。
The long-standing dominance of gradient-boosted decision trees on tabular data is currently challenged by tabular foundation models using In-Context Learning (ICL): setting the training data as context for the test data and predicting in a single forward pass without parameter updates. While TabPFNv2 foundation model excels on tables with up to 10K samples, its alternating column- and row-wise attentions make handling large training sets computationally prohibitive. So, can ICL be effectively scaled and deliver a benefit for larger tables? We introduce TabICL, a tabular foundation model for classification, pretrained on synthetic datasets with up to 60K samples and capable of handling 500K samples on affordable resources. This is enabled by a novel two-stage architecture: a column-then-row attention mechanism to build fixed-dimensional embeddings of rows, followed by a transformer for efficient ICL. Across 200 classification datasets from the TALENT benchmark, TabICL is on par with TabPFNv2 while being systematically faster (up to 10 times), and significantly outperforms all other approaches. On 53 datasets with over 10K samples, TabICL surpasses both TabPFNv2 and CatBoost, demonstrating the potential of ICL for large data. Pretraining code, inference code, and pre-trained models are available at https://github.com/soda-inria/tabicl.
研究动机与目标
- 为超大规模表格数据集的可扩展上下文学习(ICL)提供动机,超过 10K 样本。
- 开发一个两阶段架构,将可变大小的表转换为适合 ICL 的固定维嵌嵌入。
- 实现端到端的单次前向预测,无需更新参数,也无需繁重的超参数调优。
- 通过分布感知的特征嵌入以及基于集合的、置换不变的处理来改善跨表的泛化与迁移。
提出的方法
- 提出列-再行的注意力嵌入,以从任意大小的表中生成固定大小的行嵌入。
- 使用共享的 Set Transformer 进行分布感知的按列特征嵌入,以捕捉列统计。
- 应用带有旋转位置编码的上下文感知行间交互 Transformer,以缓解表示塌陷并编码特征间关系。
- 对数据集执行 ICL,使用一个 12 层 transformer 在单次前向传播中预测测试集标签,训练标签仅在 ICL 阶段使用。
- 在通过增强的 SCMs 生成的合成表格数据上进行预训练,包括基于树的生成和具有课程学习的多样激活函数。
- 采用分层分类来处理类别数>10的问题,并使用 FlashAttention 与 offloading 实现内存效率推理。
实验结果
研究问题
- RQ1在不进行超参数调优的情况下,ICL 是否能对大规模表格数据集(高达数十万样本)进行有效扩展?
- RQ2两阶段的列-再行嵌入是否能在大型表上实现高效、准确的上下文学习?
- RQ3分布感知的特征嵌入和基于 RoPE 的行内交互是否能减轻表示塌陷并提升跨表迁移性?
- RQ4在大型(>10K 样本)表格数据集上,TabICL 的表现相对于 TabPFNv2 和 CatBoost 如何?
- RQ5TabICL 能否通过分层分类处理多类别问题并在大规模下保持内存高效?
主要发现
- TabICL 在 200 TALENT 数据集上与 TabPFNv2 持平,并优于所有其他方法,推断速度更快。
- 在 56 个样本数超过 10K 的数据集上,TabICL 超越 TabPFNv2 和 CatBoost。
- TabICL 始终比 TabPFNv2 更快(在大型数据集上快多达 10 倍,小型数据集上快 1.5 倍)。
- TabICL 通过在数据集规模增长时仍保持强劲性能来使大数据的 ICL 成为可能,与之不同,TabPFNv2 在大约 30K 样本以上因内存使用而表现困难。
- 在 200 个数据集上,TabICL 提供了最先进的准确性,同时避免了超参数调优并实现单次前向预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。