[论文解读] Fine-Pruning: Defending Against Backdooring Attacks on Deep Neural Networks
本文提出了一种名为细粒度剪枝(fine-pruning)的防御方法,结合结构化剪枝与微调,以中和深度神经网络中的后门攻击。通过剪除冗余神经元并在干净数据上微调,该方法将后门攻击成功率降至0%,同时仅导致干净输入下0.4%的准确率下降,优于单独使用剪枝或微调的方法。
Deep neural networks (DNNs) provide excellent performance across a wide range of classification tasks, but their training requires high computational resources and is often outsourced to third parties. Recent work has shown that outsourced training introduces the risk that a malicious trainer will return a backdoored DNN that behaves normally on most inputs but causes targeted misclassifications or degrades the accuracy of the network when a trigger known only to the attacker is present. In this paper, we provide the first effective defenses against backdoor attacks on DNNs. We implement three backdoor attacks from prior work and use them to investigate two promising defenses, pruning and fine-tuning. We show that neither, by itself, is sufficient to defend against sophisticated attackers. We then evaluate fine-pruning, a combination of pruning and fine-tuning, and show that it successfully weakens or even eliminates the backdoors, i.e., in some cases reducing the attack success rate to 0% with only a 0.4% drop in accuracy for clean (non-triggering) inputs. Our work provides the first step toward defenses against backdoor attacks in deep neural networks.
研究动机与目标
- 应对外包深度学习中日益增长的后门攻击威胁,即恶意训练者注入隐藏触发器以操纵模型行为。
- 探究剪枝与微调——两种直观的防御方法——是否能在真实世界的深度神经网络中有效缓解后门攻击。
- 设计一种更强的、针对剪枝的后门攻击,以测试现有防御机制的鲁棒性。
- 提出并评估细粒度剪枝作为一种新颖且有效的防御策略,通过结合剪枝与微调来中和后门。
- 首次系统分析深度神经网络中后门攻击的攻防互动机制。
提出的方法
- 在真实世界数据集上复现三种现有后门攻击:交通标志识别、语音识别和人脸识别。
- 应用结构化剪枝,移除在干净输入上激活值较低的神经元,旨在通过消除冗余容量来禁用后门功能。
- 开发一种针对剪枝的后门攻击,将干净样本与恶意样本的行为集中于同一组神经元,从而规避剪枝检测。
- 通过先剪枝后在保留的干净数据集上微调来实现细粒度剪枝,以恢复准确率并进一步抑制后门行为。
- 采用干净输入上的准确率与攻击成功率的组合作为评估指标,以衡量防御的有效性。
- 在多种架构与数据集上评估防御方法,以确保结果的泛化能力。
实验结果
研究问题
- RQ1结构化剪枝是否能单独有效防御深度神经网络中的后门攻击?
- RQ2仅靠微调是否能为复杂后门攻击提供充分保护?
- RQ3一种针对剪枝的后门攻击(将干净与恶意行为集中于相同神经元)如何规避标准剪枝防御?
- RQ4通过细粒度剪枝结合剪枝与微调,是否能显著提升对后门攻击的鲁棒性,优于单一防御方法?
- RQ5细粒度剪枝在多大程度上能消除后门功能,同时保持干净输入上的模型准确率?
主要发现
- 单独使用剪枝对针对剪枝的后门攻击无效,因为此类攻击将干净与后门行为集中于相同神经元,使其对神经元移除具有鲁棒性。
- 仅靠微调仅提供部分保护,因为它无法消除后门所利用的底层结构漏洞。
- 细粒度剪枝在所有评估的后门攻击中均将攻击成功率降至0%,有效中和了恶意功能。
- 干净输入上的准确率下降极小,仅0.4%,表明其具有极强的实际可行性。
- 该防御方法在多种任务中均有效,包括交通标志识别、语音识别和人脸识别,显示出广泛适用性。
- 细粒度剪枝是首个在深度神经网络中对后门攻击有效的防御方法,优于先前方法,并为外包训练中的鲁棒性设定了新基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。