[论文解读] DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative Networks
DECAF 使用因果 GAN 通过在生成器中嵌入结构因果模型并在推断时通过边移除实现去偏,确保下游公正性和收敛性。
Machine learning models have been criticized for reflecting unfair biases in the training data. Instead of solving for this by introducing fair learning algorithms directly, we focus on generating fair synthetic data, such that any downstream learner is fair. Generating fair synthetic data from unfair data - while remaining truthful to the underlying data-generating process (DGP) - is non-trivial. In this paper, we introduce DECAF: a GAN-based fair synthetic data generator for tabular data. With DECAF we embed the DGP explicitly as a structural causal model in the input layers of the generator, allowing each variable to be reconstructed conditioned on its causal parents. This procedure enables inference time debiasing, where biased edges can be strategically removed for satisfying user-defined fairness requirements. The DECAF framework is versatile and compatible with several popular definitions of fairness. In our experiments, we show that DECAF successfully removes undesired bias and - in contrast to existing methods - is capable of generating high-quality synthetic data. Furthermore, we provide theoretical guarantees on the generator's convergence and the fairness of downstream models.
研究动机与目标
- 动机:生成公平的合成数据,以确保下游模型在训练数据存在偏见时也能保持公平。
- 提出一个基于GAN的框架,将结构因果模型嵌入其中,以学习条件数据生成机制。
- 通过在因果图中移除偏倚边,在推断时实现去偏,满足用户定义的公平性定义。
- 提供关于生成器收敛性和在合成数据上训练的下游模型的公平性的理论保证。
- 证明与多种公平性定义的兼容性,并显示经验数据效用保持较高。
提出的方法
- 用一个专用生成器 G_i 对每个变量建模,条件依赖于其因果父节点 Pa(X_i) 和噪声 Z_i。
- 训练一个有向无环图(DAG)引导的序列条件GAN,其中根节点先生成,子节点随后生成( Eq. (2) )。
- 使用判别器 D 将生成样本与真实数据区分开来,优化标准GAN目标函数( Eq. (3) )。
- 在推断时,通过移除选定边来干预学习到的因果图,以使用推论 1–3 的推论(CF、FTU、DP)来满足某个公平性定义。
- 提供一种后处理方法(代理 do-操作)在不重新训练的情况下生成去偏样本。
- 在因果兼容假设下证明生成器分布收敛到真实数据分布(定理 2)。
实验结果
研究问题
- RQ1基于 GAN 的生成器是否能够在实现公平合成数据的同时学习数据的真实因果条件分布?
- RQ2在不重新训练的情况下,如何通过对学习到的因果图进行推断时干预来实现多种公平性概念(FTU、DP、CF)?
- RQ3DECAF 生成的合成数据集在满足公平性约束的同时,是否保留下游预测效用?
- RQ4关于 DECAF 的收敛性及下游模型的公平性存在哪些保证?
- RQ5在多种公平性定义下,DECAF 相对于现有的公平数据生成方法的表现如何?
主要发现
| 方法 | 精确度 ↑ | 召回率 ↑ | AUROC ↑ | FTU ↓ | DP ↓ |
|---|---|---|---|---|---|
| Original data D | 0.920±0.006 | 0.936±0.008 | 0.807±0.004 | 0.116±0.028 | 0.180±0.010 |
| GAN | 0.607±0.080 | 0.439±0.037 | 0.567±0.132 | 0.023±0.010 | 0.089±0.008 |
| WGAN-GP | 0.683±0.015 | 0.914±0.005 | 0.798±0.009 | 0.120±0.014 | 0.189±0.024 |
| FairGAN | 0.681±0.023 | 0.814±0.079 | 0.766±0.029 | 0.009±0.002 | 0.097±0.018 |
| DECAF-ND | 0.780±0.023 | 0.920±0.045 | 0.781±0.007 | 0.152±0.013 | 0.198±0.013 |
| DECAF-FTU | 0.763±0.033 | 0.925±0.040 | 0.765±0.010 | 0.004±0.004 | 0.054±0.005 |
| DECAF-CF | 0.743±0.022 | 0.875±0.038 | 0.769±0.004 | 0.003±0.006 | 0.039±0.011 |
| DECAF-DP | 0.781±0.018 | 0.881±0.050 | 0.672±0.014 | 0.001±0.002 | 0.001±0.001 |
- DECAF 能在推断时通过因果边移除去除不良偏差,生成现实的合成数据。
- DECAF 仍可兼容多种公平性定义(FTU、DP、CF),并且可以将去偏定制为所期望的概念。
- 该方法在已知DAG兼容性下为生成器分布收敛到真实数据分布提供理论保证(定理 2)。
- 成年人数据集的实证结果表明,在去偏情况下,DECAF 变体比基线在数据效用(精确度/召回率/AUROC)方面表现更好,其中 DECAF-DP 提供了强 DP 性能。
- DECAF 相较于 FairGAN 和标准 GAN,在实现公平目标的同时维持竞争力或更优的下游预测性能(AUROC)。
- 在推断时移除边可在不重新训练的情况下生成多个公平数据集,便于实现灵活的、任务特定的公平性调整。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。