Skip to main content
QUICK REVIEW

[论文解读] ConFoc: Content-Focus Protection Against Trojan Attacks on Neural Networks

Miguel Villarreal-Vasquez, Bharat Bhargava|arXiv (Cornell University)|Jul 1, 2020
Adversarial Robustness in Machine Learning参考文献 48被引用 23
一句话总结

ConFoc 是一种新颖的防御方法,通过教会模型关注内容而非风格来增强后门攻击后的深度神经网络鲁棒性,利用风格迁移生成多样化的训练样本。该方法在多种触发器下将攻击成功率降低至1%以下,同时在良性输入和对抗性输入上保持或提升了模型准确率。

ABSTRACT

Deep Neural Networks (DNNs) have been applied successfully in computer vision. However, their wide adoption in image-related applications is threatened by their vulnerability to trojan attacks. These attacks insert some misbehavior at training using samples with a mark or trigger, which is exploited at inference or testing time. In this work, we analyze the composition of the features learned by DNNs at training. We identify that they, including those related to the inserted triggers, contain both content (semantic information) and style (texture information), which are recognized as a whole by DNNs at testing time. We then propose a novel defensive technique against trojan attacks, in which DNNs are taught to disregard the styles of inputs and focus on their content only to mitigate the effect of triggers during the classification. The generic applicability of the approach is demonstrated in the context of a traffic sign and a face recognition application. Each of them is exposed to a different attack with a variety of triggers. Results show that the method reduces the attack success rate significantly to values < 1% in all the tested attacks while keeping as well as improving the initial accuracy of the models when processing both benign and adversarial data.

研究动机与目标

  • 为应对自驾车和人脸识别等关键应用中深度神经网络日益增长的后门攻击威胁。
  • 克服现有防御方法在准确率下降或对复杂、自适应触发器失效的局限性。
  • 开发一种通用的、与模型无关的防御机制,无需架构修改或大规模数据集。
  • 使深度神经网络能够基于语义内容进行分类,模拟人类对视觉扰动的鲁棒性。
  • 在修复后保持或提升模型准确率,即使在处理对抗性样本时亦如此。

提出的方法

  • ConFoc 使用少量良性输入,并通过随机基础图像的风格进行增强,对后门模型进行微调。
  • 应用神经风格迁移,为每个良性输入生成多个风格化版本,保留内容但改变纹理和颜色。
  • 模型仅在原始和风格化良性样本上重新训练,强制其学习基于内容的特征,忽略与触发器相关的风格模式。
  • 推理过程中,模型无论输入为何种风格均能进行分类,因为训练过程使风格被有效忽略。
  • 修复过程与模型架构、数据集和攻击类型无关,具有广泛的适用性。
  • 该方法假设可访问少量修复数据集和若干风格基图,因此实用且轻量化。

实验结果

研究问题

  • RQ1RQ1:ConFoc 是否能有效降低各种类型触发器下后门模型的攻击成功率?
  • RQ2RQ2:ConFoc 在修复后对良性输入和对抗性输入的准确率保持或提升表现如何?
  • RQ3RQ3:ConFoc 是否能泛化到不同模型、数据集和攻击变体(包括 BadNets 和后门攻击)?
  • RQ4RQ4:ConFoc 对自适应攻击者(其设计触发器以规避检测)的有效性如何?
  • RQ5RQ5:在修复过程中增加使用的风格数量是否能提升对复杂触发器的鲁棒性?

主要发现

  • ConFoc 将攻击成功率(ASR)降低至所有测试触发器下均为 0.00%,包括自适应和复杂触发器。
  • 良性输入上的准确率保持稳定或提升,修复后数值范围为 97.44% 至 98.14%。
  • 对于对抗性输入,准确率得以保持或增强,修复后最高可达 98.14%,即使初始准确率较低亦如此。
  • 该方法在所有攻击变体中均保持或提升性能,包括多重标记和多对多触发器。
  • ConFoc 有效中和了具有复杂多层触发器的 BadNets 攻击,此类触发器难以检测和清除。
  • 修复过程对自适应攻击者具有鲁棒性,即使攻击者尝试在训练中使用风格化对抗样本以绕过 ConFoc 亦无效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。