[论文解读] Mitigating Backdoor Attacks in Federated Learning
本文提出一种联邦裁剪框架,加权调整和微调,以在不访问客户端原始数据的情况下缓解联邦学习中的后门攻击,显著降低攻击成功率,同时准确率损失很小。
Malicious clients can attack federated learning systems using malicious data, including backdoor samples, during the training phase. The compromised global model will perform well on the validation dataset designed for the task, but a small subset of data with backdoor patterns may trigger the model to make a wrong prediction. There has been an arms race between attackers who tried to conceal attacks and defenders who tried to detect attacks during the aggregation stage of training on the server-side. In this work, we propose a new and effective method to mitigate backdoor attacks after the training phase. Specifically, we design a federated pruning method to remove redundant neurons in the network and then adjust the model's extreme weight values. Our experiments conducted on distributed Fashion-MNIST show that our method can reduce the average attack success rate from 99.7% to 1.9% with a 5.5% loss of test accuracy on the validation dataset. To minimize the pruning influence on test accuracy, we can fine-tune after pruning, and the attack success rate drops to 6.4%, with only a 1.7% loss of test accuracy. Further experiments under Distributed Backdoor Attacks on CIFAR-10 also show promising results that the average attack success rate drops more than 70% with less than 2% loss of test accuracy on the validation dataset.
研究动机与目标
- 在客户端数据保持私密的前提下,动机并解决联邦学习中的后门漏洞。
- 开发一种数据私有化裁剪方法以移除休眠神经元并在不访问客户端数据集的情况下缓解后门。
- 通过极端权重调整和后裁剪微调阶段增强裁剪,以保持验证准确性。
- 在非独立同分布数据分布和分布式后门攻击下,展示在 MNIST、Fashion-MNIST 和 CIFAR-10 上的有效性。
提出的方法
- 引入两种联邦裁剪方法,利用客户端派生的激活排序或二值投票掩码来裁剪休眠神经元。
- 聚合客户端信号形成全局裁剪序列,并在一个小型数据集上验证的同时裁剪神经元。
- 通过将超出层特定阈值的权重置零来调整极端权重,其中阈值为 s = mu_i ± Delta * sigma_i,其中 mu_i 和 sigma_i 是该层权值的均值和标准差。
- 应用输入归一化以约束攻击者使能输入并帮助限制后门效能。
实验结果
研究问题
- RQ1在不访问客户端私有数据的情况下,联邦裁剪是否可以移除休眠神经元同时缓解后门效应?
- RQ2裁剪策略如何与后门目标及客户端之间的数据分布相互作用?
- RQ3裁剪后微调加上极端权重调整在降低攻击成功率的同时是否能维持或恢复验证准确性?
- RQ4在非IID分布和分布式后门攻击条件下,所提出的防御在MNIST、Fashion-MNIST和CIFAR-10上是否有效?
主要发现
- 联邦裁剪将后门攻击的成功率从高水平(如 >99%)降至低水平(通常 <2%),同时测试准确率损失很小。
- 在裁剪后进一步调整极端权重,使攻击成功率降至<10%,同时验证准确率大约提高或保持约5%。
- 两种裁剪方法(Ranking Vote 与 Majority Vote)在测试目标和数据集上呈现相似的裁剪效果。
- 裁剪后微调有助于恢复准确性;在非IID数据和分布式后门攻击下,整体防御流程仍然有效。
- 在 MNIST、Fashion-MNIST 和 CIFAR-10 上的实验显示,在最先进的分布式后门攻击下,后门成功率有良好下降的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。