[論文レビュー] TabuLa: Harnessing Language Models for Tabular Data Synthesis
Tabula は、テーブルデータでファインチューニングされたランダムに初期化された言語モデルが NLP 事前学習済みの starters を上回ることを示し、トークン列の圧縮と新規のパディング戦略により、6つのデータセット全体で学習がより速く進み、合成データの有用性が高くなる。
Tabular data synthesis is crucial for addressing privacy and security concerns in industries reliant on tabular data. While recent advancements adopt large language models (LLMs) for realistic tabular data generation, their long training times and limited reusability hinder practical applications. In this paper, we propose Tabula, a tabular data synthesizer that leverages the structure of LLM. Unlike state-of-the-art (SOTA) LLM-based tabular data synthesizers that rely on pre-trained LLMs, Tabula discards the pre-trained weights originally designed for natural language tasks, focusing instead on a tailored approach for tabular data. In addition, Tabula introduces a token sequence compression strategy that significantly reduces training time while maintaining data quality, alongside a novel token padding method that improves sequence alignment across training batches. Experiments on six datasets show that Tabula achieves superior synthetic data utility compared to current SOTA methods. Additionally, the results demonstrate that Tabula model trained on tabular datasets serves effectively as a foundational model for synthesizing new tabular datasets. Furthermore, the proposed padding method outperforms the conventional left and right padding strategies. Finally, the results highlight that Tabula averagely reduces training time per epoch by 46.2% compared to state-of-the-art LLM approaches while achieving higher data utility. Our code is available at https://github.com/zhao-zilong/Tabula
研究の動機と目的
- NLP-事前学習済み LLM を表データ合成の出発点として使用することの有効性を挑戦する。
- 表データ合成に焦点を当てた基盤モデルとトレーニングワークフローを提案する。
- トークン列の圧縮と新規のトークンパディング戦略を導入して学習時間を削減する。
- 複数データセットで Tabula を最先端の表データ合成手法と比較評価する。
提案手法
- 各データ行を LLM 用の文のようなテキスト表現に変換する。
- 事前学習済み NLP 重みではなく、基盤としてランダムに初期化された言語モデルを使用する。
- 列名とカテゴリ値を単一のトークンで表現し、文構造を X Y に簡略化してトークン列を圧縮する。
- バッチ全体およびデータセット全体で一貫したトークン位置を確保するために Middle Padding を導入する。
- 選択した表データセット(Intrusion)で基盤モデルをファインチューニングして、後続タスクの再利用可能な基盤を作成する。
- Tabula を CT-GAN, CTAB-GAN+, TabDDPM, GReaT, REaLTabFormer と比較し、六つのデータセットで評価する。)
実験結果
リサーチクエスチョン
- RQ1表データ合成のために NLP 事前学習済みモデルを出発点とするより、ランダムに初期化された基盤モデルの収束が速いか。
- RQ2トークン列の圧縮と中間パディングが、合成データの品質を損なうことなく学習時間を大幅に短縮できるか。
- RQ3Tabula ベースの基盤モデルを別タスクから再利用して、新しい表データ合成タスクの学習をどれだけ加速できるか。
- RQ4Tabula は機械学習の有用性と統計的類似性の点で、最先端の表データ合成手法とどう比較されるか。
主な発見
| Dataset | Original | CTGAN | CTABGAN+ | GReaT | TabDDPM | Tabula |
|---|---|---|---|---|---|---|
| Loan (LO) | 0.929 ± .002 | 0.595 ± .006 | 0.812 ± .004 | 0.829 ± .003 | 0.751 ± .003 | 0.902 ± .004 |
| Adult (AD) | 0.723 ± .002 | 0.581 ± .004 | 0.687 ± .005 | 0.718 ± .003 | 0.719 ± .002 | 0.740 ± .003 |
| Covertype (CO) | 0.777 ± .003 | 0.427 ± .007 | 0.636 ± .011 | 0.618 ± .003 | 0.770 ± .002 | 0.770 ± .002 |
| Intrusion (IT) | 0.995 ± .001 | 0.805 ± .010 | 0.912 ± .004 | 0.977 ± .003 | 0.786 ± .005 | 0.981 ± .002 |
| King (KI) | 0.255 ± .003 | 0.355 ± .009 | 0.277 ± .013 | 0.274 ± .006 | 0.282 ± .009 | 0.250 ± .005 |
| Insurance (IS) | 0.412 ± .006 | 0.516 ± .014 | 0.467 ± .024 | 0.465 ± .009 | 0.517 ± .007 | 0.430 ± .008 |
- Tabula は 6 データセット全体で機械学習の有用性の点で全ベースライン(CTGAN, CTABGAN+, GReaT, TabDDPM, REaLTabFormer)を上回る。
- ランダムに初期化された DistilGPT-2 基盤モデルは、表データ合成タスクで事前学習済み DistilGPT-2 よりも収束が速い。
- Intrusion データセットで Tabula を事前学習すると、後続の合成タスクで一貫した改善(収束が速くなる)をもたらす。
- トークン列の圧縮は、SOTA LLM ベースの合成器と比較して学習時間を平均 46.2% 削減する。
- 中間パディングは左寄せ/右寄せパディングよりも、トークン位置の一貫性を維持し、合成品質を向上させる。
- Tabula はいくつかのデータセットで元データやベースラインよりも高い合成データ有用性を示し、元データの性能を超えるケースもある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。