[논문 리뷰] Language Models are Realistic Tabular Data Generators
논문은 GReaT를 제안하는데, 이는 텍스트로 인코딩된 표 데이터에 대해 autoregressive LLM을 미세 조정하여 임의 조건화가 가능한 현실적인 합성 표 샘플을 생성하는 transformer 기반 방법이다. 이는 여러 실제 데이터 세트와 합성 데이터 세트에서 최첨단 성능을 달성하고 사용하기 쉬운 Python 패키지를 제공한다.
Tabular data is among the oldest and most ubiquitous forms of data. However, the generation of synthetic samples with the original data's characteristics remains a significant challenge for tabular data. While many generative models from the computer vision domain, such as variational autoencoders or generative adversarial networks, have been adapted for tabular data generation, less research has been directed towards recent transformer-based large language models (LLMs), which are also generative in nature. To this end, we propose GReaT (Generation of Realistic Tabular data), which exploits an auto-regressive generative LLM to sample synthetic and yet highly realistic tabular data. Furthermore, GReaT can model tabular data distributions by conditioning on any subset of features; the remaining features are sampled without additional overhead. We demonstrate the effectiveness of the proposed approach in a series of experiments that quantify the validity and quality of the produced data samples from multiple angles. We find that GReaT maintains state-of-the-art performance across numerous real-world and synthetic data sets with heterogeneous feature types coming in various sizes.
연구 동기 및 목표
- 현실적인 합성 표 데이터 생성을 촉진하고 전처리, 맥락 지식, 임의 조건부 도전과제를 다룬다.
- 정보를 보존하고 인위적 순서를 피하는 표 데이터의 새로운 텍스트 인코딩을 LLM에 도입한다.
- 훈련 중 무작위 특징 순서 순열을 활용하여 임의의 조건부 샘플링을 가능하게 한다.
- 다양한 실제 데이터세트와 합성 데이터세트에 걸쳐 최첨단 생성 품질을 입증한다.
- 커뮤니티를 위한 접근 가능한 구현과 벤치마크를 제공한다.
제안 방법
- 특성 이름과 값을 포함하는 주어-술어-목적 인코딩을 사용하여 표 데이터를 텍스트로 변환한다.
- 인코딩된 특성 문장을 무작위로 순서를 바꿔 의존성 순서를 제거하고 임의 조건부를 가능하게 한다.
- 표 데이터 생성을 위한 텍스트 인코딩에 대해 프리트레인된 autoregressive LLM(GPT-2 변형)을 미세 조정한다.
- 특성 이름이나 이름-값 쌍에 조건화하여 새로운 표 행을 샘플링하고, 생성된 텍스트를 정규 표현식으로 표 형식으로 다시 변환한다.
- 유연한 샘플링을 위해 세 가지 조건화 모드를 제공한다: 특성 이름만, 하나의 이름-값 쌍, 또는 여러 이름-값 쌍.
- 오픈 소스 Python 패키지를 제공하고 잘못된 샘플 비율이 <1%인 샘플링을 보고한다.
실험 결과
연구 질문
- RQ1대형 언어 모델(LLM)을 텍스트 인코딩된 표 행에 대해 학습시켜 현실적인 표 데이터를 생성하도록 효과적으로 미세 조정할 수 있는가?
- RQ2무작위 특성 순서 순열이 재학습 없이도 생성 모델에 임의 조건부 기능을 부여하는가?
- RQ3실제 데이터세트와 합성 데이터세트에서 GReaT의 성능은 기존 대조군(CTGAN, TVAE, CopulaGAN)과 비교해 어떤가?
- RQ4다양한 특성 유형과 서로 다른 데이터세트 크기에 걸쳐 GReaT가 고품질 샘플을 생성할 수 있는가?
- RQ5커뮤니티가 쉽게 채택하고 벤치마킹할 수 있는 구현이 존재하는가?
주요 결과
- GReaT는 이질적인 특성 유형을 가진 다수의 실제 데이터세트와 합성 데이터세트에서 최첨단 생성 성능을 달성한다.
- Distill-GReaT(더 작은 GPT-2)와 GReaT(더 큰 GPT-2)가 실험에서 CTGAN, TVAE, CopulaGAN과 같은 대조군을 능가한다.
- 훈련 중 무작위로 순열된 텍스트 인코딩으로 임의 조건부를 가능하게 하여 샘플링 시 일부 특성의 부분집합에 대해 재학습 없이 조건화를 허용한다.
- 샘플링은 특성 이름이나 이름-값 쌍에서 시작할 수 있어 유연한 보정, 조건부 생성 및 반사실적 샘플링이 가능하다.
- 생성 중 잘못된 샘플 비율은 지속적으로 1% 미만으로 보고되며, 카테고리 값의 토큰화로 인한 드물게 발생하는 위반은 온도 조정을 낮춤으로써 완화된다.
- 실행 시작을 위한 세 줄의 코드로 샘플링 가능한 기능을 갖춘 사용하기 쉬운 Python 패키지를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.