Skip to main content
QUICK REVIEW

[논문 리뷰] Modeling Tabular data using Conditional GAN

Lei Xu, Maria Skoularidou|arXiv (Cornell University)|2019. 07. 01.
Generative Adversarial Networks and Image Synthesis참고 문헌 28인용 수 94
한 줄 요약

CTGAN은 모드별 정규화 및 샘플링 학습을 통해 혼합된 이산-연속 표 형식 데이터를 모델링하는 조건 생성기를 도입하고, 실제 데이터셋에서 대부분의 지표에서 베이지안 베이스라인 및 여러 GAN 변형을 능가합니다.

ABSTRACT

Modeling the probability distribution of rows in tabular data and generating realistic synthetic data is a non-trivial task. Tabular data usually contains a mix of discrete and continuous columns. Continuous columns may have multiple modes whereas discrete columns are sometimes imbalanced making the modeling difficult. Existing statistical and deep neural network models fail to properly model this type of data. We design TGAN, which uses a conditional generative adversarial network to address these challenges. To aid in a fair and thorough comparison, we design a benchmark with 7 simulated and 8 real datasets and several Bayesian network baselines. TGAN outperforms Bayesian methods on most of the real datasets whereas other deep learning methods could not.

연구 동기 및 목표

  • 연속 및 이산으로 혼합된 표 형식 데이터의 결합 분포를 모델링하는 데 있어 다모드성 및 클래스 불균형과 같은 문제를 다루는 도전을 동기 부여한다.
  • 표 형식 데이터에 특화된 조건 GAN CTGAN을 제안하여 비가우시안 연속 분포 및 이산 불균형 문제를 해결한다.
  • 모사 정확도와 커버리지를 개선하기 위한 학습 시 기술(모드별 정규화, 조건 생성기, 샘플링 기반 학습)을 도입한다.
  • CTGAN을 베이지안 네트워크 및 다른 GAN 기반 방법과 비교하는 벤치마크 스위트(SDGym)를 제공한다.

제안 방법

  • variational Gaussian mixture model을 사용한 모드별 정규화로 연속 열마다 여러 모드를 식별하고 표현한다.
  • 조건 벡터를 이용해 이산 속성 값에 따라 생성되도록 강제하는 조건 생성기(크로스 엔트로피 페널티를 포함하여 올바른 조건화를 강제한다)를 사용한다.
  • 각 이산 열의 로그 빈도에 따라 조건을 샘플링하여 희귀 이산 값에 대한 노출을 균형 있게 하는 학습 기반 샘플링 전략을 적용한다.
  • 푸아송 기반의 WGAN-GP 및 PacGAN 프레임워크를 사용해 학습을 안정시키고 모드 붕괴를 완화한다.
  • 완전 연결 계층으로 구성된 네트워크 설계(표 형식 데이터에 로컬 구조가 없으며)에서 생성기에서 배치 정규화와 ReLU 활성화, 평가기에서 Leaky ReLU와 드롭아웃을 사용한다.

실험 결과

연구 질문

  • RQ1연속과 이산 특성이 혼합된 표 형식 데이터를 어떻게 모델링하여 다모드 연속 분포와 심한 불균형 이산 범주를 포착할 수 있는가?
  • RQ2표 형식 데이터에 특화된 조건 GAN이 다양한 데이터셋에서 베이지안 네트워크 베이스라인 및 기존 GAN 접근법을 능가할 수 있는가?
  • RQ3모드별 정규화와 샘플링 학습이 합성 표 형식 데이터의 가능도 적합도 및 다운스트림 ML 성능을 향상시키는가?
  • RQ4특정 이산 값에 조건화된 데이터를 생성할 수 있는 조건 생성기가 데이터 증가에 유효한가?

주요 결과

방법GM_Syn_LsynGM_Syn_LtestBN_Syn_LsynBN_Syn_Ltestclfreg
Identity-2.61-2.61-9.33-9.360.7430.14
CLBN-3.06-7.31-10.66-9.920.382-6.28
PrivBN-3.38-12.42-12.97-10.900.225-4.49
MedGAN-7.27-60.03-11.14-12.150.137-8.80
VEEGAN-10.06-4.22-15.40-13.860.143-6.50e6
TableGAN-8.24-4.12-11.84-10.470.162-3.09
TVAE-2.65-5.42-6.76-9.590.519-0.20
CTGAN-5.72-3.40-11.67-10.600.469-0.43
Real-9.33-9.36-9.33-9.360.7430.14
  • CTGAN은 벤치마킹 연구에서 대부분의 실데이터셋에 대해 베이지안 네트워크를 능가한다.
  • 모드별 정규화는 연속 열의 다모드 모델링에서 최소-최대 정규화나 고정 GMM 설정보다 개선된다.
  • 학습 기반 샘플링이 포함된 조건 생성기는 불균형 이산 열을 효과적으로 처리하여 신용 데이터셋 등의 목표에서 강한 성능을 달성한다.
  • CTGAN과 TVAE는 실데이터에서 일부 벤치마인을 능가하며, CTGAN은 경쟁력 있는 결과를 얻고 때로는 TVAE를 능가하기도 한다.
  • 제안된 벤치마크 스위트(SDGym)는 합성 표 형식 데이터 생성을 위한 여러 데이터셋과 평가 지표 간의 공정한 비교를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.