Skip to main content
QUICK REVIEW

[论文解读] TabClustPFN: A Prior-Fitted Network for Tabular Data Clustering

Tianqi Zhao, Guanyang Wang|arXiv (Cornell University)|Jan 29, 2026
Bayesian Methods and Mixture Models被引用 0
一句话总结

TabClustPFN 引入一个解耦的、先验数据拟合网络,用于无监督表格聚类,在单次前向传播中联合推断聚类分配和基数,使用置换不变的 SoftARI 目标,在一个 44 数据集的真实世界基准上达到最先进的结果。

ABSTRACT

Clustering tabular data is a fundamental yet challenging problem due to heterogeneous feature types, diverse data-generating mechanisms, and the absence of transferable inductive biases across datasets. Prior-fitted networks (PFNs) have recently demonstrated strong generalization in supervised tabular learning by amortizing Bayesian inference under a broad synthetic prior. Extending this paradigm to clustering is nontrivial: clustering is unsupervised, admits a combinatorial and permutation-invariant output space, and requires inferring the number of clusters. We introduce TabClustPFN, a prior-fitted network for tabular data clustering that performs amortized Bayesian inference over both cluster assignments and cluster cardinality. Pretrained on synthetic datasets drawn from a flexible clustering prior, TabClustPFN clusters unseen datasets in a single forward pass, without dataset-specific retraining or hyperparameter tuning. The model naturally handles heterogeneous numerical and categorical features and adapts to a wide range of clustering structures. Experiments on synthetic data and curated real-world tabular benchmarks show that TabClustPFN outperforms classical, deep, and amortized clustering baselines, while exhibiting strong robustness in out-of-the-box exploratory settings. Code is available at https://github.com/Tianqi-Zhao/TabClustPFN.

研究动机与目标

  • 通过利用上下文学习将聚类问题建模为 PFN 问题,而无需对数据集进行特定优化。
  • 设计一个共同开发的先验、目标和架构,以应对聚类中的未知聚类数和标签切换问题。
  • 开发一个解耦的架构,分别推断聚类分配和基数。
  • 提出一个置换不变的损失,避免聚类任务中的标签顺序约定。

提出的方法

  • 混合预训练先验,结合基于 GMM 的和 iResNet 转换(ZEUS)的聚类分布以捕捉真实表格几何形状。
  • Partition Inference Network (PIN) 具备变换器编码器与迭代交叉注意力,用于学习给定 K 的软聚类分配。
  • Cardinality Inference Network (CIN) 从 PIN 在候选 K 上的输出的 Gram 矩阵摘要中估计 p(K|X)。
  • SoftARI:一个可微分、对称换位的损失,用于 PIN 以在没有预设标签顺序的情况下处理标签切换。
  • CIN 通过对真实 K 的交叉熵训练,采用与 PIN 解耦的优化方案以稳定学习。
  • 在先验生成的合成数据上进行预训练,以近似联合后验 p(K,Z|X)。

实验结果

研究问题

  • RQ1PFN 是否可以扩展到在未知聚类数的条件下进行无监督聚类,而无需数据集特定优化?
  • RQ2如何在一次前向传播中联合推断分区结构和聚类数?
  • RQ3置换不变的训练目标是否在不使用标签顺序约定的情况下提升聚类质量?
  • RQ4先验数据多样性对聚类对真实表格数据的泛化有何影响?
  • RQ5所 proposed 的 TabClustPFN 在未见的合成情景以及更大 N 和 D 的情况下可以泛化到何种程度?

主要发现

  • TabClustPFN 在一个精心挑选的 44 个真实世界表格基准上实现了最先进的聚类性能,适用于已知和未知 K 的设置。
  • 解耦的 PIN-CIN 架构在单次传播中有效推断聚类分配和基数,且 CIN 提供校准后的 K 后验估计。
  • SoftARI 在聚类质量方面优于或接近与明确标签匹配的交叉熵,并降低了预训练成本。
  • TabClustPFN 对更大 N 和 D 的泛化能力很强,在分布外测试中保持较高的 ARI 和较低的 k-MAE,且高维情形中 PCA 能力有所帮助。
  • 标定结果显示 CIN 的后验覆盖率超过额定水平,表明在未知 K 情景下对 K 的不确定性估计更可靠。
  • 消融研究表明迭代交叉注意力、优先数据多样性和解耦优化都对相较基线的性能提升有贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。