[论文解读] Blind Backdoors in Deep Learning Models
本文提出盲目代码中毒后门,通过在训练过程中修改损失计算来注入后门,且无需访问数据、模型或输出,能够在视觉和语言任务中实施强大攻击并规避防御。
We investigate a new method for injecting backdoors into machine learning models, based on compromising the loss-value computation in the model-training code. We use it to demonstrate new classes of backdoors strictly more powerful than those in the prior literature: single-pixel and physical backdoors in ImageNet models, backdoors that switch the model to a covert, privacy-violating task, and backdoors that do not require inference-time input modifications. Our attack is blind: the attacker cannot modify the training data, nor observe the execution of his code, nor access the resulting model. The attack code creates poisoned training inputs "on the fly," as the model is training, and uses multi-objective optimization to achieve high accuracy on both the main and backdoor tasks. We show how a blind attack can evade any known defense and propose new ones.
研究动机与目标
- 激发并形式化一种新的后门向量:通过在ML管道中的损失值计算进行代码中毒。
- 展示盲目攻击者无需数据/模型访问即可注入多样化后门。
- 演示超越简单像素触发的、涉及语义与非推理时间威胁的后门。
- 分析防御并提出对策,包括认证鲁棒性和可信计算图。
提出的方法
- 将后门建模为多任务学习,模型必须同时满足主任务和后门任务。
- 攻击代码实时综合后门输入,并计算一个盲损失 blindellblind,结合主任务损失和后门任务损失,使用MGDA来平衡相互冲突的目标。
- 使用带有Franke-Wolfe优化器的多梯度下降算法,在运行时自动确定任务权重系数。
- 后门触发可以是像素模式、单个像素、物理对象或语义特征,不需要在推理时修改输入。
- 攻击开销通过仅在接近收敛时进行攻击并重复使用MGDA推导的系数来最小化额外计算。
实验结果
研究问题
- RQ1盲目攻击者能否在训练过程中修改损失计算以嵌入后门,而无需访问训练数据、代码执行输出或生成的模型?
- RQ2使用盲代码中毒可以实现哪些类别的后门(如像素、物理、语义以及非推理时间触发)以及它们对防御的有效性如何?
- RQ3将后门注入视为多任务学习并使用MGDA,如何影响主任务准确性与后门功能之间的平衡?
- RQ4盲损失修改的实际开销有多大,如何在保持攻击效果的同时降低开销?
- RQ5哪些防御对盲后门仍然有效,以及作者提出的新防御?
主要发现
- 盲攻击可以在多样触发器和任务上实现高后门准确度(99%),同时在很大程度上保持主任务准确性。
- 在ImageNet上,完整训练无论有无后门,主任务准确率为65.3%;后门使主准确率略降至68.7–68.9%,具体取决于触发器,同时后门准确率约为99%。
- 对基于MNIST派生任务(MultiMNIST)的多重后门,主任务准确性保留约96%,后门任务在触发器存在时达到约95%准确率(加法或乘法)。
- NLP中的语义后门(IMDb情感分析)维持91%主任务准确性,在不修改输入的情况下达到约98%后门准确度。
- 基于MGDA的平衡(自动损失系数优化)比固定系数或批量中毒在后门成功率和主任务性能上更高(例如 MGDA: 96.04 主任务,95.47 乘法,95.17 加法)。
- 攻击由于额外前向/后向传播而增加训练时间和内存使用,但通过针对收敛、重复使用系数以及动态收敛检测可以降低开销。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。