[论文解读] Gradient-Leaks: Understanding and Controlling Deanonymization in Federated Learning
本文指出,联邦学习中的模型更新会泄露用户特定的数据偏差,即使仅有极少先验信息,也能有效实现参与设备的去匿名化。作者提出经过校准的数据增强策略——特别是多模态增强(mm-aug)——能显著降低去匿名化风险,同时对模型效用影响极小,优于基于噪声和扰动的防御方法。
Federated Learning (FL) systems are gaining popularity as a solution to training Machine Learning (ML) models from large-scale user data collected on personal devices (e.g., smartphones) without their raw data leaving the device. At the core of FL is a network of anonymous user devices sharing training information (model parameter updates) computed locally on personal data. However, the type and degree to which user-specific information is encoded in the model updates is poorly understood. In this paper, we identify model updates encode subtle variations in which users capture and generate data. The variations provide a strong statistical signal, allowing an adversary to effectively deanonymize participating devices using a limited set of auxiliary data. We analyze resulting deanonymization attacks on diverse tasks on real-world (anonymized) user-generated data across a range of closed- and open-world scenarios. We study various strategies to mitigate the risks of deanonymization. As random perturbation methods do not offer convincing operating points, we propose data-augmentation strategies which introduces adversarial biases in device data and thereby, offer substantial protection against deanonymization threats with little effect on utility.
研究动机与目标
- 调查在遵循数据最小化原则的前提下,联邦学习的模型更新是否仍可能导致用户设备的去匿名化。
- 分析用户特定的数据收集习惯(如不同的拍照习惯)如何在模型更新中形成可识别的统计指纹。
- 评估各种缓解策略(尤其是数据增强技术)在降低去匿名化风险方面的有效性。
- 证明将去匿名化攻击与属性推断攻击结合会加剧联邦学习中的隐私威胁。
- 提出并验证一种实用的、能保持模型效用的防御策略,采用领域特定的数据增强。
提出的方法
- 作者利用有限的先验数据(例如每个用户仅一张图像)进行去匿名化攻击,基于模型参数更新来重新识别设备。
- 在封闭世界和开放世界场景下评估攻击效果,包括跨模态攻击(例如使用文本先验进行图像训练)。
- 所提出的缓解策略 mm-aug(多模态增强)通过在训练数据中引入对抗性偏差,方法是使用带标签的背景或合成数据进行增强。
- 将 mm-aug 与基线防御方法进行比较:随机高斯噪声、背景替换(bkg-repl)以及差分隐私联邦平均(dp-fedavg)。
- 该方法通过使用增强数据训练模型,改变更新的统计分布,使其更难被识别,同时保持任务性能。
- 通过对手重新识别准确率(AP 超过随机水平)和模型效用(归一化为无防御时的 1.0)来评估性能。
实验结果
研究问题
- RQ1攻击者是否仅凭目标用户的单个先验样本,就能在联邦学习中实现设备的去匿名化?
- RQ2用户特定的数据收集习惯在多大程度上会在模型更新中形成可识别的统计指纹?
- RQ3数据增强策略在降低去匿名化风险的同时,如何保持模型效用?
- RQ4去匿名化攻击是否可扩展至跨模态场景,例如使用文本先验进行图像训练?
- RQ5将去匿名化攻击与属性推断攻击结合,是否会导致攻击性能出现协同提升?
主要发现
- 在 PIPA 和 Blog 等真实世界数据集的图像分类任务中,设备的去匿名化准确率比随机水平高出 19 至 175 倍。
- 跨模态去匿名化攻击的 AUC 达到 0.76,表明即使先验数据模态与训练数据不同,攻击仍具有效性。
- mm-aug 数据增强策略在 OpenImages 上使对手 AP 降低 75%,在 PIPA 上降低 67%,优于噪声和 bkg-repl 方法。
- 随机扰动和差分隐私方法严重损害模型效用,使其在现实联邦学习中不切实际。
- 将去匿名化攻击与属性推断攻击结合,可在两项任务上使性能提升最高达 4%,凸显组合威胁的风险。
- 尽管训练开销增加,mm-aug 在高隐私水平下仍能保持甚至提升模型效用(效用 >1.0),这是由于数据增强的积极影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。