QUICK REVIEW

[论文解读] Language Models are Realistic Tabular Data Generators

Vadim Borisov, Kathrin Seßler|arXiv (Cornell University)|Oct 12, 2022

Topic Modeling被引用 44

一句话总结

论文提出 GReaT，一种基于 Transformer 的方法，在文本编码的表格数据上微调自回归大型语言模型，以生成具有任意条件性的现实感强的合成表格样本。它在多个人类现实世界数据集和合成数据集上实现了最先进的性能，并提供一个易于使用的 Python 包。

ABSTRACT

Tabular data is among the oldest and most ubiquitous forms of data. However, the generation of synthetic samples with the original data's characteristics remains a significant challenge for tabular data. While many generative models from the computer vision domain, such as variational autoencoders or generative adversarial networks, have been adapted for tabular data generation, less research has been directed towards recent transformer-based large language models (LLMs), which are also generative in nature. To this end, we propose GReaT (Generation of Realistic Tabular data), which exploits an auto-regressive generative LLM to sample synthetic and yet highly realistic tabular data. Furthermore, GReaT can model tabular data distributions by conditioning on any subset of features; the remaining features are sampled without additional overhead. We demonstrate the effectiveness of the proposed approach in a series of experiments that quantify the validity and quality of the produced data samples from multiple angles. We find that GReaT maintains state-of-the-art performance across numerous real-world and synthetic data sets with heterogeneous feature types coming in various sizes.

研究动机与目标

激励生成现实的合成表格数据，并解决预处理、上下文知识和任意条件设定等挑战。
为 LLMs 引入一种新的表格数据文本编码，保持信息完整且避免人为的排序偏置。
通过在训练过程中利用特征顺序的随机置换，使采样能够实现任意条件设定。
展示在多样的真实世界和合成数据集上的一流生成质量。
为社区提供可访问的实现和基准测试。

提出的方法

使用包含特征名称和值的主-谓-宾编码将表格数据转换为文本。
随机置换编码的特征句，以消除顺序依赖并实现任意条件设定。
在文本编码上对预训练的自回归型语言模型（GPT-2 变体）进行微调，以进行表格数据生成。
通过以特征名或名称-值对为条件来采样新的表格行；用正则表达式将生成的文本转换回表格格式。
提供三种条件模式：仅特征名、一个名称-值对，或多个名称-值对，以实现灵活采样。
提供开源的 Python 包，并报告采样时无效样本率低于 <1%。

实验结果

研究问题

RQ1大型语言模型（LLMs）是否可以在对表格行的文本编码进行训练时，经过有效微调来生成现实的表格数据？
RQ2随机特征顺序置换是否在不重训练的情况下赋予生成模型任意条件设定的能力？
RQ3GReaT 在真实世界和合成表格数据集上相对于 CTGAN、TVAE、CopulaGAN 等基线的表现如何？
RQ4GReaT 是否能够在异质特征类型和不同数据集规模上生成高质量样本？
RQ5是否存在一个易于社区采用和基准测试的可访问实现？

主要发现

GReaT 在具有异质特征类型的多种真实世界与合成数据集上实现了最先进的生成性能。
Distill-GReaT（较小的 GPT-2）和 GReaT（较大的 GPT-2）在所引用的实验中优于 CTGAN、TVAE 和 CopulaGAN 等基线。
通过在随机置换的文本编码上进行训练，实现任意条件设定，在采样时无需重新训练即可对任意特征子集进行条件化。
采样过程可以从特征名或名称-值对开始，实现灵活填充、条件生成和类反事实采样。
在生成过程中的无效样本率被报告为始终低于 1%，极少数违规归因于对类别值的分词，且通过降低温度得到缓解。
提供一个易于使用的 Python 包，通过三行代码即可开始生成合成样本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。