Skip to main content
QUICK REVIEW

[论文解读] Communication-Efficient On-Device Machine Learning: Federated Distillation and Augmentation under Non-IID Private Data

Eunjeong Jeong, Seungeun Oh|arXiv (Cornell University)|Nov 28, 2018
Privacy-Preserving Technologies in Data参考文献 4被引用 443
一句话总结

本文提出联邦蒸馏(FD)与联邦增强(FAug),在非IID私有数据下实现高效通信的设备端学习,达到与联邦学习(FL)相近的准确性,但通信量显著降低。FD 使用按标签的平均对数向量进行在线知识蒸馏,而 FAug 使用服务器训练的生成对抗网络(GAN)来将数据增强至接近IID分布。

ABSTRACT

On-device machine learning (ML) enables the training process to exploit a massive amount of user-generated private data samples. To enjoy this benefit, inter-device communication overhead should be minimized. With this end, we propose federated distillation (FD), a distributed model training algorithm whose communication payload size is much smaller than a benchmark scheme, federated learning (FL), particularly when the model size is large. Moreover, user-generated data samples are likely to become non-IID across devices, which commonly degrades the performance compared to the case with an IID dataset. To cope with this, we propose federated augmentation (FAug), where each device collectively trains a generative model, and thereby augments its local data towards yielding an IID dataset. Empirical studies demonstrate that FD with FAug yields around 26x less communication overhead while achieving 95-98% test accuracy compared to FL.

研究动机与目标

  • 激励并实现具隐私保护的数据的设备端机器学习,且不产生高额通信开销。
  • 解决跨设备的非IID数据问题,该问题会削弱FL性能。
  • 提出用于低通信量知识蒸馏的FD,以及将数据分布“IID化”的FAug。

提出的方法

  • FD 只交换模型输出(logits),而非完整模型参数,以支持大规模本地模型。
  • FD 在本地存储按标签的平均 logits 向量并上传,以计算每个标签的全局平均 logits,作为蒸馏的教师。
  • FAug 在服务器上训练一个条件GAN,用以扩充缺失的目标标签数据,使设备能够在本地再现接近IID的数据集。
  • FAug 的隐私处理包括增加冗余标签以降低设备-服务器的隐私泄露,并对设备间的隐私泄露进行分析。
  • 评估在非IID MNIST 数据集上,对比 FD/FD+FAug 与 FL/FL+FAug,在不同设备数量以及目标标签/冗余标签设置下。

实验结果

研究问题

  • RQ1FD 是否能在非IID私有数据上显著降低通信量,同时保持具竞争力的准确性?
  • RQ2FAug 是否能在可控隐私与通信成本下有效缓解非IID性能差距?
  • RQ3设备数量、目标标签和冗余标签如何影响 FD/FAug 的准确性与隐私泄露?
  • RQ4将 FD 与 FAug 结合使用相比于 FL,在通信开销与准确性之间的权衡是什么?

主要发现

方法精度(设备=2)精度(设备=4)精度(设备=6)精度(设备=8)精度(设备=10)Logits模型参数样本总计(位)
FD + FAug0.84640.85260.84980.84800.86423,2001,493,5201547,989,120
FD (non-IID)0.72300.73040.69510.68390.75243,200--102,400
FL + FAug0.91110.86540.89560.91010.9259-39,882,256151,276,326,272
FL (non-IID)0.80770.86840.87380.88780.9060-38,388,736-1,228,439,552
  • 结合 FAug 的 FD 实现约比 FL 低26×的总通信量,同时达到95-98%的测试准确率。
  • FD+FAug 在随设备数量变化时,与 FL 相比,在每标签准确性提升和整体测试准确性方面具有可比性。
  • 在非IID数据下,没有 FAug 的 FD 相对于 FL 显现显著的准确性差距,但 FAug 已缩小了大部分差距(例如,FD+FAug 接近 FL 的准确性)。
  • 设备间隐私泄露随着冗余标签数量增加和设备增多而下降,降低了目标标签泄露的风险。
  • 设备-服务器隐私泄露随着冗余标签增多而减少,随着目标标签增多而增加。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。