[论文解读] DeepSweep: An Evaluation Framework for Mitigating DNN Backdoor Attacks using Data Augmentation
DeepSweep 提出了一套系统化的框架,通过数据增强来检测和缓解深度神经网络后门攻击。该框架应用两种不同的增强策略:一种用于微调受感染模型,另一种用于推理时的输入预处理。它通过全面评估71种函数来识别最优增强策略,在八种后门攻击类型上均表现出强大防御能力,且优于五种现有防御方法。
Public resources and services (e.g., datasets, training platforms, pre-trained models) have been widely adopted to ease the development of Deep Learning-based applications. However, if the third-party providers are untrusted, they can inject poisoned samples into the datasets or embed backdoors in those models. Such an integrity breach can cause severe consequences, especially in safety- and security-critical applications. Various backdoor attack techniques have been proposed for higher effectiveness and stealthiness. Unfortunately, existing defense solutions are not practical to thwart those attacks in a comprehensive way. In this paper, we investigate the effectiveness of data augmentation techniques in mitigating backdoor attacks and enhancing DL models' robustness. An evaluation framework is introduced to achieve this goal. Specifically, we consider a unified defense solution, which (1) adopts a data augmentation policy to fine-tune the infected model and eliminate the effects of the embedded backdoor; (2) uses another augmentation policy to preprocess input samples and invalidate the triggers during inference. We propose a systematic approach to discover the optimal policies for defending against different backdoor attacks by comprehensively evaluating 71 state-of-the-art data augmentation functions. Extensive experiments show that our identified policy can effectively mitigate eight different kinds of backdoor attacks and outperform five existing defense methods. We envision this framework can be a good benchmark tool to advance future DNN backdoor studies.
研究动机与目标
- 为应对使用不受信任的第三方数据集或服务训练的深度学习模型中后门攻击日益增长的威胁。
- 克服现有防御方法在多样化后门攻击类型(尤其是具有复杂或语义触发器的攻击)上泛化能力不足的局限。
- 开发一种系统化、自动化的评估框架,以识别有效缓解各类后门攻击的数据增强策略。
提出的方法
- 该框架采用两阶段防御机制:首先,使用一种数据增强策略对受后门污染的模型进行微调,以中和后门影响。
- 其次,在推理时应用另一种不同的增强策略,对输入样本进行变换,从而破坏触发器模式。
- 它系统性地评估了 71 种最先进的数据增强函数,以发现针对每类攻击的最优策略组合。
- 该框架利用增强操作及其超参数的搜索空间,针对验证集中的每类攻击识别出性能最佳的策略。
- 它借助一个包含八种代表性后门攻击类型的精心构建的攻击数据库,以指导策略发现与评估。
- 最终解决方案在未见过的攻击实例上进行验证,以评估其泛化能力和鲁棒性。
实验结果
研究问题
- RQ1能否系统性地利用数据增强来识别对多样化 DNN 后门攻击具有有效性和泛化能力的防御方法?
- RQ2哪些特定的数据增强函数组合能够有效降低多种攻击类型的攻击成功率,同时保持模型准确率?
- RQ3在多种后门攻击变体上,该框架与现有防御方法相比,在性能和鲁棒性方面表现如何?
- RQ4该框架能否泛化到在策略搜索过程中未使用过的新颖、未见过的后门攻击模式?
- RQ5当面对根本不同的攻击类型(如语义触发或不可见触发)时,该框架存在哪些局限性?
主要发现
- DeepSweep 框架成功缓解了八种不同类型的后门攻击,包括基于图案的和复杂触发器变体。
- 所识别的防御策略将平均攻击成功率(ASR)降低至 5.3%,而基线模型的 ASR 为 95.4%。
- 在干净输入上,该框架在测试集上的平均准确率(ACC)达到 83.1%,在鲁棒性和可用性方面显著优于现有防御方法。
- 与五种最先进的防御方法相比,DeepSweep 在降低 ASR 的同时保持了更高的模型准确率,表现出更优的性能。
- 该框架具有可扩展性,可通过使用特定领域的文本增强技术,轻松适配其他领域(如 NLP)。
- 该框架已开源,旨在作为未来后门防御研究的基准,并支持新攻击和增强函数的持续集成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。