Skip to main content
QUICK REVIEW

[논문 리뷰] DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative Networks

Boris van Breugel, Trent Kyono|arXiv (Cornell University)|2021. 10. 25.
Ethics and Social Impacts of AI참고 문헌 24인용 수 26
한 줄 요약

DECAF는 구조적 인과 모델을 제너레이터에 내재화하고 엣지 제거를 통한 추론 시 편향 제거를 가능하게 하여 공정한 합성 표 데이터 생성을 수행하며, 다운스트림 공정성과 수렴 보장에 대해 보증을 제공합니다.

ABSTRACT

Machine learning models have been criticized for reflecting unfair biases in the training data. Instead of solving for this by introducing fair learning algorithms directly, we focus on generating fair synthetic data, such that any downstream learner is fair. Generating fair synthetic data from unfair data - while remaining truthful to the underlying data-generating process (DGP) - is non-trivial. In this paper, we introduce DECAF: a GAN-based fair synthetic data generator for tabular data. With DECAF we embed the DGP explicitly as a structural causal model in the input layers of the generator, allowing each variable to be reconstructed conditioned on its causal parents. This procedure enables inference time debiasing, where biased edges can be strategically removed for satisfying user-defined fairness requirements. The DECAF framework is versatile and compatible with several popular definitions of fairness. In our experiments, we show that DECAF successfully removes undesired bias and - in contrast to existing methods - is capable of generating high-quality synthetic data. Furthermore, we provide theoretical guarantees on the generator's convergence and the fairness of downstream models.

연구 동기 및 목표

  • 공정한 합성 데이터를 생성하여 학습 데이터가 편향되어 있어도downstream 모델이 공정하도록 보장하는 것을 동기화합니다.
  • 구조적 인과 모델을 내재화하는 GAN 기반 프레임워크를 제안하여 조건부 데이터 생성 메커니즘을 학습합니다.
  • 인퍼런스 시 인과 그래프에서 편향된 엣지를 제거하여 사용자가 정의한 공정성 정의를 만족하도록 합니다.
  • 합성 데이터에서 학습된 제너레이터의 수렴성과 다운스트림 모델의 공정성에 대한 이론적 보장을 제공합니다.
  • 다수의 공정성 정의와 Empirical 데이터 유용성이 여전히 높게 유지되는지의 호환성을 보여줍니다.

제안 방법

  • 각 변수마다 그 인과 부모 Pa(X_i)와 잡음 Z_i에 조건부로 의존하는 독립된 제너레이터 G_i를 모델링합니다.
  • 루트 노드가 먼저 생성되고 자식 노드가 그다음에 생성되는 순차적 DAG 안내 조건부 GAN을 학습합니다(식 (2)).
  • 생성된 샘플과 실제 데이터를 구분하는 판별기 D를 사용하여 표준 GAN 목적 함수(Eq. (3))를 최적화합니다.
  • 추론 시 학습된 인과 그래프에 대해 특정 엣지를 제거하여 공정성 정의(CF, FTU, DP)를 만족시키도록 개입합니다(코로릴러리 1–3).
  • retraining 없이도 편향 제거 샘플을 생성하기 위한 후처리 접근법(대리 도-연산)을 제공합니다.
  • 인과적으로 호환 가능한 가정하에서 제너레이터 분포가 진짜 데이터 분포로 수렴한다는 수렴성(Theorem 2)을 증명합니다.

실험 결과

연구 질문

  • RQ1GAN 기반 제너레이터가 공정 합성 데이터를 생성하는 동시에 데이터의 진정한 인과 조건부를 학습할 수 있는가?
  • RQ2학습된 인과 그래프에 대한 추론 시 개입이 재학습 없이 FTU, DP, CF와 같은 다양한 공정성 개념을 달성할 수 있는가?
  • RQ3DECAF가 생성한 합성 데이터셋이 공정성 제약을 충족하면서 다운스트림 예측 유용성을 보존하는가?
  • RQ4DECAF의 수렴성과 다운스트림 모델의 공정성에 대한 보장은 어떤가?
  • RQ5DECAF가 여러 공정성 정의에 걸쳐 기존의 공정 데이터 생성 방법과 비교해 어떤 성능 차이를 보이는가?

주요 결과

MethodPrecision ↑Recall ↑AUROC ↑FTU ↓DP ↓
Original data D0.920±0.0060.936±0.0080.807±0.0040.116±0.0280.180±0.010
GAN0.607±0.0800.439±0.0370.567±0.1320.023±0.0100.089±0.008
WGAN-GP0.683±0.0150.914±0.0050.798±0.0090.120±0.0140.189±0.024
FairGAN0.681±0.0230.814±0.0790.766±0.0290.009±0.0020.097±0.018
DECAF-ND0.780±0.0230.920±0.0450.781±0.0070.152±0.0130.198±0.013
DECAF-FTU0.763±0.0330.925±0.0400.765±0.0100.004±0.0040.054±0.005
DECAF-CF0.743±0.0220.875±0.0380.769±0.0040.003±0.0060.039±0.011
DECAF-DP0.781±0.0180.881±0.0500.672±0.0140.001±0.0020.001±0.001
  • DECAF는 인과적 엣지 추출을 통한 추론 시 제거로 원치 않는 편향을 제거하면서 현실적인 합성 데이터를 생성할 수 있습니다.
  • DECAF는 여러 공정성 정의(FTU, DP, CF)와의 호환성을 유지하며 편향 제거를 원하는 정의에 맞게 조정할 수 있습니다.
  • 방법은 알려진 DAG 호환성하에서 제너레이터 분포가 진짜 데이터 분포로 수렴한다는 이론적 수렴 보장을 제공합니다(Theorem 2).
  • Adult 데이터셋에 대한 실험에서 DECAF 변형은 편향 제거하에서 baselines보다 데이터 유용성(정밀도/재현율/AUROC)이 높고, DECAF-DP가 강력한 DP 성능을 제공합니다.
  • DECAF는 FairGAN 및 일반 GAN에 비해 공정성 목표를 달성하면서도 다운스트림 예측 성능(AUROC)이 경쟁력 있거나 우수합니다.
  • 추론 시 엣지 제거를 통해 재학습 없이 다수의 공정한 데이터셋 생성을 가능하게 하며, 작업별 공정성 조정이 유연합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.