[论文解读] XOR Mixup: Privacy-Preserving Data Augmentation for One-Shot Federated Learning
XorMixFL 使用基于 XOR 的混合增广,在单次联邦学习设置下私密地跨设备增强数据,通过生成合成样本来在非 IID 情况下提升性能,同时保持隐私。
User-generated data distributions are often imbalanced across devices and labels, hampering the performance of federated learning (FL). To remedy to this non-independent and identically distributed (non-IID) data problem, in this work we develop a privacy-preserving XOR based mixup data augmentation technique, coined XorMixup, and thereby propose a novel one-shot FL framework, termed XorMixFL. The core idea is to collect other devices' encoded data samples that are decoded only using each device's own data samples. The decoding provides synthetic-but-realistic samples until inducing an IID dataset, used for model training. Both encoding and decoding procedures follow the bit-wise XOR operations that intentionally distort raw samples, thereby preserving data privacy. Simulation results corroborate that XorMixFL achieves up to 17.6% higher accuracy than Vanilla FL under a non-IID MNIST dataset.
研究动机与目标
- 通过创建隐私保护的合成样本来解决联邦学习中的非 IID 数据分布问题。
- 提出一个单次 FL 框架(XorMixFL),使用基于 XOR 的混合增广在不暴露原始样本的前提下扩增数据。
- 在标签分布不均衡的情况下保持数据隐私,同时提高全局模型的准确性。
提出的方法
- 引入 XorMixup,通过按位 XOR 对混合样本进行编码以在创建合成样本的同时保护原始数据。
- 使用服务器端解码,结合其自身的基样本来生成更真实的增强数据。
- 应用一个单次 FL 框架,设备上传编码样本,服务器解码以平衡标签分布,然后基于重构数据训练全局模型。
- 结合 p 次样本混合和每个标签最多对 p 个样本进行平均,以提取共同特征并控制隐私/噪声。
- 在非 IID MNIST 上将 XorMixFL 与 Vanilla FL 和 MixFL 进行对比,以评估精度与隐私权衡。
实验结果
研究问题
- RQ1在单次 FL 设置中,基于 XOR 的混合增广(XorMixup)是否能提供隐私保护的数据增强?
- RQ2在非 IID 数据分布下,XorMixFL 是否能在保持更高隐私(以样本相异度衡量)的同时提升相对 Vanilla FL 和 MixFL 的准确性?
主要发现
- XorMixFL 在单次设置下在非 IID MNIST 上比 Vanilla FL 的准确率高出最多 17.6%。
- 在同一非 IID 场景下,XorMixFL 可以比独立的 ML 高出约 8.13%。
- 隐私度量(MDS)表明 XorMixFL 在测试配置中提供的样本隐私高于 MixFL。
- 消融研究显示,采用基于 XOR 的编码/解码的 XorMixFL 在维持具竞争力的准确度的同时提供比 MixFL 更强的隐私。
- 增加混合深度 p 和虚拟标签数 M 通常会提升隐私(MDS),并可能以可预测的方式影响准确性。
- XorMixup 可以在提升隐私的同时达到与 MixFL 相当的准确性,证明基于 XOR 的增广在隐私保护的一次性 FL 中的价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。