QUICK REVIEW

[논문 리뷰] TabuLa: Harnessing Language Models for Tabular Data Synthesis

Zilong Zhao, Robert Birke|arXiv (Cornell University)|2023. 10. 19.

Digital and Cyber Forensics인용 수 11

한 줄 요약

Tabula는 무작위로 초기화된 언어 모델이 표 데이터로 미세조정되면 NLP 사전학습 시작점들을 능가할 수 있으며, 토큰 시퀀스 압축과 새로운 패딩 전략으로 더 빠른 학습과 여섯 데이터셋에서 더 높은 합성 데이터 활용도를 달성한다.

ABSTRACT

Tabular data synthesis is crucial for addressing privacy and security concerns in industries reliant on tabular data. While recent advancements adopt large language models (LLMs) for realistic tabular data generation, their long training times and limited reusability hinder practical applications. In this paper, we propose Tabula, a tabular data synthesizer that leverages the structure of LLM. Unlike state-of-the-art (SOTA) LLM-based tabular data synthesizers that rely on pre-trained LLMs, Tabula discards the pre-trained weights originally designed for natural language tasks, focusing instead on a tailored approach for tabular data. In addition, Tabula introduces a token sequence compression strategy that significantly reduces training time while maintaining data quality, alongside a novel token padding method that improves sequence alignment across training batches. Experiments on six datasets show that Tabula achieves superior synthetic data utility compared to current SOTA methods. Additionally, the results demonstrate that Tabula model trained on tabular datasets serves effectively as a foundational model for synthesizing new tabular datasets. Furthermore, the proposed padding method outperforms the conventional left and right padding strategies. Finally, the results highlight that Tabula averagely reduces training time per epoch by 46.2% compared to state-of-the-art LLM approaches while achieving higher data utility. Our code is available at https://github.com/zhao-zilong/Tabula

연구 동기 및 목표

표 형식 데이터 합성을 위한 시작점으로서 NLP 사전학습 LLM의 효과를 도전적으로 평가한다.
표 형식 합성에 초점을 둔 기초 모델과 학습 워크플로를 제안한다.
학습 시간을 줄이기 위해 토큰 시퀀스 압축과 새로운 토큰 패딩 전략을 도입한다.
여러 데이터셋에 대해 Tabula를 최첨단 표 형식 합성 방법과 비교한다.

제안 방법

각 데이터 행을 LLM에 대한 문장 유사한 텍스트 표현으로 변환한다.
사전 학습된 NLP 가중치가 아닌 무작위로 초기화된 언어 모델을 기초로 사용한다.
열 이름과 범주 값을 단일 토큰으로 표현하고 문장 구조를 X Y로 단순화하여 토큰 시퀀스를 압축한다.
배치 간 및 데이터셋 간에 일관된 토큰 위치를 보장하기 위해 Middle Padding을 도입한다.
선택된 표 데이터셋(Intrusion)에서 기초 모델을 미세 조정하여 후속 작업을 위한 재사용 가능한 기초를 만든다.
여섯 데이터셋에 대해 Tabula를 CT-GAN, CTAB-GAN+, TabDDPM, GReaT, REaLTabFormer와 비교한다.

실험 결과

연구 질문

RQ1무작위로 초기화된 기초 모델이 표 형식 데이터 합성에서 NLP 사전 학습 모델보다 더 빠르게 수렴하는가?
RQ2토큰 시퀀스 압축과 Middle Padding이 합성 데이터 품질을 희생하지 않으면서 학습 시간을 크게 줄일 수 있는가?
RQ3Tabula 기반 기초 모델이 하나의 작업에서 재사용되어 새로운 표 형식 합성 작업의 학습을 얼마나 가속할 수 있는가?
RQ4Tabula가 기계 학습 활용도와 통계적 유사성 측면에서 최신 표 형식 데이터 합성 방법과 비교하여 어떤 위치에 있는가?

주요 결과

데이터셋	원본	CTGAN	CTABGAN+	GReaT	TabDDPM	Tabula
Loan (LO)	0.929 ± .002	0.595 ± .006	0.812 ± .004	0.829 ± .003	0.751 ± .003	0.902 ± .004
Adult (AD)	0.723 ± .002	0.581 ± .004	0.687 ± .005	0.718 ± .003	0.719 ± .002	0.740 ± .003
Covertype (CO)	0.777 ± .003	0.427 ± .007	0.636 ± .011	0.618 ± .003	0.770 ± .002	0.770 ± .002
Intrusion (IT)	0.995 ± .001	0.805 ± .010	0.912 ± .004	0.977 ± .003	0.786 ± .005	0.981 ± .002
King (KI)	0.255 ± .003	0.355 ± .009	0.277 ± .013	0.274 ± .006	0.282 ± .009	0.250 ± .005
Insurance (IS)	0.412 ± .006	0.516 ± .014	0.467 ± .024	0.465 ± .009	0.517 ± .007	0.430 ± .008

Tabula는 여섯 데이터셋에서 기계 학습 활용도 측면에서 모든 기준선(CTGAN, CTABGAN+, GReaT, TabDDPM, REaLTabFormer)을 능가한다.
무작위로 초기화된 DistilGPT-2 기초 모델이 표 형식 합성 작업에서 사전 학습된 DistilGPT-2보다 더 빠르게 수렴한다.
Intrusion 데이터셋에서 Tabula를 사전 학습시키면 후속 합성 작업에 대해 일관된 개선(수렴 속도 증가)을 얻는다.
토큰 시퀀스 압축은 SOTA LLM 기반 합성기 대비 학습 시간을 에포크당 평균 46.2% 감소시킨다.
Middle Padding은 왼쪽/오른쪽 패딩보다 일관된 토큰 위치 유지 및 합성 품질 향상에 우수하다.
Tabula는 원본 데이터나 기준선보다 여러 데이터셋에서 더 높은 합성 데이터 활용도를 달성하며, 일부 사례에서는 원본 데이터 성능을 초과한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.