QUICK REVIEW

[论文解读] TabuLa: Harnessing Language Models for Tabular Data Synthesis

Zilong Zhao, Robert Birke|arXiv (Cornell University)|Oct 19, 2023

Digital and Cyber Forensics被引用 11

一句话总结

Tabula 证明一个在表格数据上进行微调的随机初始化语言模型可以优于 NLP 预训练的起点，并且通过令牌序列压缩和新颖的填充策略，在六个数据集上实现更快的训练和更高的合成数据效用。

ABSTRACT

Tabular data synthesis is crucial for addressing privacy and security concerns in industries reliant on tabular data. While recent advancements adopt large language models (LLMs) for realistic tabular data generation, their long training times and limited reusability hinder practical applications. In this paper, we propose Tabula, a tabular data synthesizer that leverages the structure of LLM. Unlike state-of-the-art (SOTA) LLM-based tabular data synthesizers that rely on pre-trained LLMs, Tabula discards the pre-trained weights originally designed for natural language tasks, focusing instead on a tailored approach for tabular data. In addition, Tabula introduces a token sequence compression strategy that significantly reduces training time while maintaining data quality, alongside a novel token padding method that improves sequence alignment across training batches. Experiments on six datasets show that Tabula achieves superior synthetic data utility compared to current SOTA methods. Additionally, the results demonstrate that Tabula model trained on tabular datasets serves effectively as a foundational model for synthesizing new tabular datasets. Furthermore, the proposed padding method outperforms the conventional left and right padding strategies. Finally, the results highlight that Tabula averagely reduces training time per epoch by 46.2% compared to state-of-the-art LLM approaches while achieving higher data utility. Our code is available at https://github.com/zhao-zilong/Tabula

研究动机与目标

质疑将 NLP 预训练的大语言模型作为表格数据合成起点的有效性。
提出一个面向表格合成的基础模型和训练工作流。
引入令牌序列压缩和新颖的令牌填充策略以降低训练时间。
在多个数据集上将 Tabula 与最先进的表格合成方法进行对比评估。

提出的方法

将每一行数据转换为一个类似句子的文本表示，以用于 LLM。
使用随机初始化的语言模型作为基础，而不是预训练的 NLP 权重。
通过用单个令牌表示列名和分类值并简化句子结构为 X Y 来压缩令牌序列。
引入中间填充以确保在一个批次和整个数据集中的令牌位置保持一致。
在选定的表格数据集（Intrusion）上微调基础模型，以为后续任务创建可重复使用的基础。
将 Tabula 与 CT-GAN、CTAB-GAN+、TabDDPM、GReaT 和 REaLTabFormer 在六个数据集上的表现进行比较。

实验结果

研究问题

RQ1一个随机初始化的基础模型在表格数据合成方面是否比 NLP 预训练模型更快收敛？
RQ2令牌序列压缩和中间填充是否能显著降低训练时间而不影响合成数据质量？
RQ3从一个任务中复用的基于 Tabula 的基础模型在新表格合成任务的学习中能否加速？
RQ4在机器学习效用和统计相似性方面，Tabula 与最先进的表格数据合成方法相比如何？

主要发现

Tabula 在六个数据集上的机器学习效用方面优于所有基线（CTGAN、CTABGAN+、GReaT、TabDDPM、REaLTabFormer）。
一个随机初始化的 DistilGPT-2 基础模型在表格合成任务中比预训练的 DistilGPT-2 收敛更快。
在 Intrusion 数据集上对 Tabula 进行预训练可在后续合成任务中带来一致的改进（收敛更快）。
与 SOTA 基于 LLM 的合成器相比，令牌序列压缩将训练时间平均降低约 46.2%（每个 epoch）。
中间填充在保持令牌位置的一致性和提升合成质量方面优于左填充、右填充及 REaLTabFormer。
Tabula 在若干数据集上的合成数据效用高于原始数据或基线，在某些情况下甚至超越原始数据的表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。