[论文解读] Fed-TGAN: Federated Learning Framework for Synthesizing Tabular Data
Fed-TGAN 提出了一种用于表格 GAN 的联邦学习框架,具备隐私保护编码和表格相似性加权聚合,相较基线可实现更快的收敛速度和更高的数据相似性。
Generative Adversarial Networks (GANs) are typically trained to synthesize data, from images and more recently tabular data, under the assumption of directly accessible training data. Recently, federated learning (FL) is an emerging paradigm that features decentralized learning on client's local data with a privacy-preserving capability. And, while learning GANs to synthesize images on FL systems has just been demonstrated, it is unknown if GANs for tabular data can be learned from decentralized data sources. Moreover, it remains unclear which distributed architecture suits them best. Different from image GANs, state-of-the-art tabular GANs require prior knowledge on the data distribution of each (discrete and continuous) column to agree on a common encoding -- risking privacy guarantees. In this paper, we propose Fed-TGAN, the first Federated learning framework for Tabular GANs. To effectively learn a complex tabular GAN on non-identical participants, Fed-TGAN designs two novel features: (i) a privacy-preserving multi-source feature encoding for model initialization; and (ii) table similarity aware weighting strategies to aggregate local models for countering data skew. We extensively evaluate the proposed Fed-TGAN against variants of decentralized learning architectures on four widely used datasets. Results show that Fed-TGAN accelerates training time per epoch up to 200% compared to the alternative architectures, for both IID and Non-IID data. Overall, Fed-TGAN not only stabilizes the training loss, but also achieves better similarity between generated and original data. Our code is released at https://github.com/zhao-zilong/Fed-TGAN.
研究动机与目标
- 在去中心化客户端之间训练 CTGAN 风格的表格 GAN,而不共享原始数据。
- 开发隐私保护的列编码以在不暴露私有数据的情况下初始化全局编码器。
- 设计一个表格相似性感知的加权方案,在非 IID 的表格数据下聚合本地模型。
- 在多个数据集上证明相比基线,生成数据与真实数据之间的收敛更快且相似度更高。
提出的方法
- 采用带有聚合者(federator)和多个客户端的联邦学习结构,每个客户端训练本地生成器和判别器。
- 通过收集列统计(分类变量频数和连续的 VGM 参数)来实现隐私保护的特征编码,以在不访问原始数据的情况下构建全局编码器。
- 将全局编码器 LE_j 和 VGM_j 分发给客户端,以用统一的输入/输出结构初始化模型。
- 使用每列的散度(分类变量为 Jensen-Shannon,连续变量为 Wasserstein)和数据量来计算每个客户端的聚合权重,然后应用 softmax 归一化的加权聚合。
- 使用 PyTorch RPC 实现系统,以进行异步训练轮次和集中聚合,解决 GPU-CPU 数据传输的限制。
实验结果
研究问题
- RQ1Fed-TGAN 是否能够在保护隐私的前提下,从去中心化数据中学习表格 GAN?
- RQ2隐私保护初始化和表格感知加权在 IID 与非 IID 条件下是否提升了收敛速度和数据真实度?
- RQ3在标准表格数据集上,Fed-TGAN 的结果如何与集中式 CTGAN、标准 FL 与多判别器 MD-GAN 相比?
主要发现
| 数据集 | Avg JSD (MD/Fed/Centralized) | Avg WD (MD/Fed/Centralized) |
|---|---|---|
| Adult | 0.072/ 0.059 /0.117 | 0.014/ 0.012 /0.015 |
| Covertype | 0.038/ 0.018 /0.075 | 0.022/ 0.021 /0.086 |
| Credit | 0.083/ 0 /0.012 | 0.006 / 0.006 /0.041 |
| Intrusion | 0.095/ 0.031 /0.032 | 0.027/ 0.02 /0.026 |
- Fed-TGAN 将每个 epoch 的训练时间相比多判别器基线减少最多 200%。
- Fed-TGAN 在理想的 IID 情况下,在四个数据集上对真实数据的相似度(较低的 Avg-JSD 和 Avg-WD)高于基线。
- 在客户端数据不平衡的情况下,Fed-TGAN 的收敛速度快于普通的 FL-TGAN。
- 消融研究表明去除表格相似性加权会降低性能,证实其有效性。
- 在非 IID 分布数据下,Fed-TGAN 保持稳定收敛并改进相似性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。