Skip to main content
QUICK REVIEW

[论文解读] Input-Aware Dynamic Backdoor Attack

Anh Nguyen, Anh Tran|arXiv (Cornell University)|Oct 16, 2020
Adversarial Robustness in Machine Learning参考文献 22被引用 156
一句话总结

引入一个输入条件化的后门,能够为每张图像生成独特的触发器,在实现高攻击成功率的同时,避开现有防御并在输入之间不可重复使用。

ABSTRACT

In recent years, neural backdoor attack has been considered to be a potential security threat to deep learning systems. Such systems, while achieving the state-of-the-art performance on clean data, perform abnormally on inputs with predefined triggers. Current backdoor techniques, however, rely on uniform trigger patterns, which are easily detected and mitigated by current defense methods. In this work, we propose a novel backdoor attack technique in which the triggers vary from input to input. To achieve this goal, we implement an input-aware trigger generator driven by diversity loss. A novel cross-trigger test is applied to enforce trigger nonreusablity, making backdoor verification impossible. Experiments show that our method is efficient in various attack scenarios as well as multiple datasets. We further demonstrate that our backdoor can bypass the state of the art defense methods. An analysis with a famous neural network inspector again proves the stealthiness of the proposed attack. Our code is publicly available at https://github.com/VinAIResearch/input-aware-backdoor-attack-release.

研究动机与目标

  • 通过使触发器对输入依赖并且多样化,推动背后门威胁超越固定的全局触发器。
  • 设计一个触发器生成器,使其在每个输入条件下产生不同且不可重复使用的触发器。
  • 在训练期间通过跨触发测试来强制实现不可重复使用。
  • 在 MNIST、CIFAR-10 和 GTSRB 上评估该方法,并对抗领先的防御。
  • 评估对简单图像正则化和网络检测技巧的鲁棒性。

提出的方法

  • 使用一个编码-解码触发器生成器 g,将输入 x 映射为触发器 t = g(x)。
  • 通过多样性损失 Ldiv 强制触发器多样性,以避免饱和并确保跨输入的触发器不同。
  • 在训练中引入跨触发测试,以确保触发器在不同输入之间不可重复使用。
  • 使用复合目标 Ltotal = Lcla + λdiv Ldiv 进行训练,将分类和多样性目标结合起来。
  • 在训练和评估阶段以三种运行模式运行:干净、攻击(用输入特异触发器中毒)、跨触发(用来自其他输入的触发器中毒)。”
  • 在 MNIST、CIFAR-10 和 GTSRB 上对抗最先进的防御(Neural Cleanse、Fine-Pruning、STRIP 以及 Mode Connectivity)。

实验结果

研究问题

  • RQ1是否可以将后门触发器设计为输入感知,使其对每张图像变化,同时在被污染数据上保持攻击效果?
  • RQ2具备多样性强制的触发器生成器是否能产生不可重复使用、对输入特定的触发器,从而避开标准的后门防御?
  • RQ3提出的跨触发测试如何影响后门不可重复使用性与检测器可检测性?
  • RQ4输入感知的后门是否对常见的图像正则化和可见的网络检测技巧具有鲁棒性?
  • RQ5在单目标和全对全(多目标)场景中的攻击性能与隐蔽性如何?

主要发现

  • 输入感知的后门在被污染数据上在 MNIST、CIFAR-10 和 GTSRB 上实现接近 100% 的攻击成功率,同时保持干净准确率。
  • 跨触发准确率介于 88.16% 到 96.80% 之间,表明触发器不会对输入不匹配的情况泛化。
  • 在标准评估设置下,攻击绕过包括 Neural Cleanse、Fine-Pruning 和 Mode Connectivity 在内的主要防御。
  • 在部署时的类似 STRIP 的测试并不能可靠检测后门,因为攻击在内容变化时会失效,产生与干净模型相似的高熵。
  • 与传统的固定触发后门不同,该后门在简单的图像正则化下仍然鲁棒,在 GradCam 检查下具有较好的隐蔽性。
  • 全对全攻击(多目标)保持较强的性能,尽管攻击准确度相较单目标情况略有下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。