[论文解读] When the Curious Abandon Honesty: Federated Learning Is Not Private
本文提出了一种新颖且计算高效的联邦学习数据重建攻击,其中恶意中央方利用‘陷阱权重’——经过精心操控的模型权重——从梯度中完美提取出单个训练数据点。该攻击适用于大规模小批量数据,包括仅含一类样本的小批量,且在极低可检测性下实现近乎完美的重建(例如,ImageNet上达到50%,IMDB上达到65%),无需复杂优化。
In federated learning (FL), data does not leave personal devices when they are jointly training a machine learning model. Instead, these devices share gradients, parameters, or other model updates, with a central party (e.g., a company) coordinating the training. Because data never "leaves" personal devices, FL is often presented as privacy-preserving. Yet, recently it was shown that this protection is but a thin facade, as even a passive, honest-but-curious attacker observing gradients can reconstruct data of individual users contributing to the protocol. In this work, we show a novel data reconstruction attack which allows an active and dishonest central party to efficiently extract user data from the received gradients. While prior work on data reconstruction in FL relies on solving computationally expensive optimization problems or on making easily detectable modifications to the shared model's architecture or parameters, in our attack the central party makes inconspicuous changes to the shared model's weights before sending them out to the users. We call the modified weights of our attack trap weights. Our active attacker is able to recover user data perfectly, i.e., with zero error, even when this data stems from the same class. Recovery comes with near-zero costs: the attack requires no complex optimization objectives. Instead, our attacker exploits inherent data leakage from model gradients and simply amplifies this effect by maliciously altering the weights of the shared model through the trap weights. These specificities enable our attack to scale to fully-connected and convolutional deep neural networks trained with large mini-batches of data. For example, for the high-dimensional vision dataset ImageNet, we perfectly reconstruct more than 50% of the training data points from mini-batches as large as 100 data points.
研究动机与目标
- 揭示联邦学习中根本性的隐私漏洞:尽管声称保护隐私,但数据始终保留在设备上。
- 证明主动的、不诚实的中央方可通过操纵模型权重,以完美保真度提取私有训练数据。
- 开发一种方法,实现高效、可扩展且不可检测的数据重建,即使在大规模小批量和多种架构下亦可实现。
- 挑战联邦学习本质上保护用户隐私的假设,尤其是在中央方控制模型权重的情况下。
- 倡导在联邦学习中集成专用隐私保护机制,因为原始联邦学习并不提供有意义的隐私保障。
提出的方法
- 该攻击利用‘陷阱权重’——在共享模型中植入的对抗性权重修改——以放大模型梯度中固有的数据泄露。
- 陷阱权重通过重新缩放模型权重矩阵的组成部分生成,从而实现对基于梯度的数据重建的精确控制。
- 该攻击利用了全连接网络和卷积网络在大规模小批量训练中,梯度常包含记忆化训练数据点的事实。
- 通过将梯度投影到输入空间域,实现重建,避免了复杂的优化过程。
- 即使用户执行多轮本地训练(FedAvg),该方法依然有效,因其作用于模型更新,而不仅限于原始梯度。
- 该攻击具有隐蔽性,因为权重修改微不足道,不改变模型架构,也无需触发检测机制的参数变更。
实验结果
研究问题
- RQ1恶意中央方是否能在不使用复杂优化或可检测修改的情况下,从梯度中重建联邦学习中的私有训练数据?
- RQ2当共享模型权重被对抗性初始化时,模型梯度中的数据泄露程度会增加到何种程度?
- RQ3是否能在大规模小批量(包括仅含一类样本的小批量)中实现完美保真度的数据重建?
- RQ4陷阱权重方法在不同模型架构(如全连接网络和卷积网络)中的可扩展性如何?
- RQ5权重操纵对联邦学习中的隐私有何影响?需要何种防御措施?
主要发现
- 该攻击可实现训练数据点的完美重建,误差为零,即使小批量中所有数据属于同一类别。
- 在ImageNet数据集上,使用陷阱权重方法,100个样本的小批量中超过50%的训练数据点被完美重建。
- 在IMDB情感分析等文本任务中,100个样本的小批量中超过65%的数据点以完美保真度被重建。
- 该攻击计算效率高,无需复杂优化,通过将梯度投影到输入空间域实现。
- 该方法适用于原始梯度和FedAvg中的模型更新,证明了其在标准联邦学习协议中的广泛适用性。
- 该攻击高度隐蔽,因为陷阱权重修改微不足道,不改变模型架构,且不会触发检测机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。