QUICK REVIEW

[論文レビュー] Language Models are Realistic Tabular Data Generators

Vadim Borisov, Kathrin Seßler|arXiv (Cornell University)|Oct 12, 2022

Topic Modeling被引用数 44

ひとこと要約

この論文は GReaT を提案します。これは、テキストでエンコードされた表形式データ上で自己回帰型 LLM を微調整し、任意の条件付けで現実的な合成表データのサンプルを生成するトランスフォーマーベースの手法です。実世界データセットと合成データセットの複数において最先端の性能を達成し、使いやすい Python パッケージを提供します。

ABSTRACT

Tabular data is among the oldest and most ubiquitous forms of data. However, the generation of synthetic samples with the original data's characteristics remains a significant challenge for tabular data. While many generative models from the computer vision domain, such as variational autoencoders or generative adversarial networks, have been adapted for tabular data generation, less research has been directed towards recent transformer-based large language models (LLMs), which are also generative in nature. To this end, we propose GReaT (Generation of Realistic Tabular data), which exploits an auto-regressive generative LLM to sample synthetic and yet highly realistic tabular data. Furthermore, GReaT can model tabular data distributions by conditioning on any subset of features; the remaining features are sampled without additional overhead. We demonstrate the effectiveness of the proposed approach in a series of experiments that quantify the validity and quality of the produced data samples from multiple angles. We find that GReaT maintains state-of-the-art performance across numerous real-world and synthetic data sets with heterogeneous feature types coming in various sizes.

研究の動機と目的

現実的な合成表データの生成を動機づけ、前処理、文脈知識、任意の条件付けの課題に対処する。
情報を保持しつつ人工的な順序付けを避け、LLM のための新しい表データのテキスト表現を導入する。
訓練時のランダムな特徴の順序置換を活用して、任意の条件付けによるサンプリングを可能にする。
多様な実世界データセットと合成データセットにわたって最先端の生成品質を実証する。
コミュニティ向けに利用しやすい実装とベンチマークを提供する。

提案手法

特徴名と値を含む主語-述語-目的語エンコーディングを用いて表データをテキストに変換する。
エンコードされた特徴文をランダムに置換して順序依存性を取り除き、任意の条件付けを可能にする。
表データ生成のためのテキストエンコーディング上で、事前学習済みの自己回帰型 LLM（GPT-2 系）を微調整する。
特徴名または名前-値のペアで条件付けして新しい表の行をサンプリングし、生成されたテキストを正規表現で表形式に戻す。
柔軟なサンプリングのため、3 つの条件付けモードを提供します。特徴名のみ、1 つの名前-値ペア、または複数の名前-値ペア。
オープンソースの Python パッケージを提供し、無効サンプル率が低いサンプリングを報告する（<1%）。

実験結果

リサーチクエスチョン

RQ1LLMs は、表の行のテキスト表現で訓練された場合に、現実的な表データを生成するよう効果的に微調整できるか？
RQ2ランダムな特徴順序の置換は、再訓練なしに生成モデルへ任意の条件付け能力を付与するか？
RQ3実世界データセットおよび合成表データセットにおける GReaT の性能は、従来のベースライン（CTGAN、TVAE、CopulaGAN）と比べてどうか？
RQ4異種の特徴タイプとさまざまなデータセットサイズにまたがって、高品質なサンプルを GReaT が生成できるか？
RQ5コミュニティが容易に採用・ベンチマークできる使いやすい実装はあるか？

主な発見

GReaT は、異種の特徴タイプを持つ複数の実世界データセットおよび合成データセットで最先端の生成性能を達成する。
Distill-GReaT（より小さな GPT-2）と GReaT（より大きな GPT-2）は、実験で CTGAN、TVAE、CopulaGAN などのベースラインを上回る。
任意の条件付けは、ランダムに置換されたテキスト表現で訓練することにより実現され、再訓練なしにサンプリング時に任意の特徴の部分集合に条件付けできる。
サンプリングは特徴名または名前-値ペアから開始でき、柔軟な欠測補完、条件付き生成、および反事実のようなサンプリングを可能にする。
生成時の無効サンプル率は一貫して <1% 未満と報告され、カテゴリ値のトークン化に起因するまれな違反は温度を下げることで緩和される。
開始のために 3 行のコードで合成サンプルを生成できる使いやすい Python パッケージが提供されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。