Skip to main content
QUICK REVIEW

[论文解读] iDLG: Improved Deep Leakage from Gradients

Bo Zhao, Konda Reddy Mopuri|arXiv (Cornell University)|Jan 8, 2020
Privacy-Preserving Technologies in Data参考文献 10被引用 376
一句话总结

iDLG 解析性地从共享梯度中提取真实标签,并以此改进数据重构,在 MNIST、CIFAR-100 与 LFW 上实现 100% 的标签提取准确率,同时在数据保真度方面优于原始 DLG。

ABSTRACT

It is widely believed that sharing gradients will not leak private training data in distributed learning systems such as Collaborative Learning and Federated Learning, etc. Recently, Zhu et al. presented an approach which shows the possibility to obtain private training data from the publicly shared gradients. In their Deep Leakage from Gradient (DLG) method, they synthesize the dummy data and corresponding labels with the supervision of shared gradients. However, DLG has difficulty in convergence and discovering the ground-truth labels consistently. In this paper, we find that sharing gradients definitely leaks the ground-truth labels. We propose a simple but reliable approach to extract accurate data from the gradients. Particularly, our approach can certainly extract the ground-truth labels as opposed to DLG, hence we name it Improved DLG (iDLG). Our approach is valid for any differentiable model trained with cross-entropy loss over one-hot labels. We mathematically illustrate how our method can extract ground-truth labels from the gradients and empirically demonstrate the advantages over DLG.

研究动机与目标

  • 动机:揭示分布式学习中梯度共享暴露私人训练数据的脆弱性。
  • 推导一种方法,使其无论模型架构如何都能从梯度中识别真实标签。
  • 提出 iDLG,通过使用提取的标签来驱动梯度匹配重构来提高数据泄露。

提出的方法

  • 推导在带有 one-hot 标签的交叉熵下,输出梯度与真实标签之间的基于符号的关系。
  • 证明对最后一层权重的梯度根据符号模式揭示真实标签。
  • 使用基于符号的准则从共享梯度中提取真实标签。
  • 初始化一个虚拟输入并通过优化使其梯度与共享梯度之间的 Frobenius 范数差最小化。
  • 通过梯度下降更新虚拟输入,以使用提取的标签重构私有数据。

实验结果

研究问题

  • RQ1是否可以无论网络架构如何,可靠地从共享梯度中推断出真实标签?
  • RQ2与 DLG 相比,使用提取的标签是否能提高数据重构的保真度和收敛性?
  • RQ3在不同复杂度的数据集(MNIST、CIFAR-100、LFW)上,iDLG 的表现如何?
  • RQ4梯度访问范围(逐样本梯度)对泄露效果有何影响?

主要发现

数据集DLG(标签准确率)iDLG(标签准确率)
MNIST89.9%100.0%
CIFAR-10083.3%100.0%
LFW79.1%100.0%
  • iDLG 在 MNIST、CIFAR-100 与 LFW 上实现了提取真实标签的 100% 准确率,与经常错误标注的 DLG 不同。
  • iDLG 在所有三个数据集的数据保真度上持续优于 DLG,且在具有挑战性的 LFW 任务上获得显著提升。
  • 在 1000 次试验中,iDLG 提取标签的准确性更高,重构数据的保真度也更好(均方误差更低)。
  • 该方法收敛更快,相对于 DLG 需要的迭代次数更少即可达到相近保真度(例如,在所给示例中 LFW 为 90 次对比 200 次)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。