Skip to main content
QUICK REVIEW

[论文解读] Characterizing Adversarial Examples Based on Spatial Consistency Information for Semantic Segmentation

Chaowei Xiao, Ruizhi Deng|arXiv (Cornell University)|Oct 11, 2018
Adversarial Robustness in Machine Learning参考文献 46被引用 51
一句话总结

本论文通过利用随机图像补丁之间的空间一致性来分析语义分割中的对抗样本,表明空间上下文可以在对抗性攻击者面前稳健检测对抗输入,且在分割模型之间的可迁移性较低。

ABSTRACT

Deep Neural Networks (DNNs) have been widely applied in various recognition tasks. However, recently DNNs have been shown to be vulnerable against adversarial examples, which can mislead DNNs to make arbitrary incorrect predictions. While adversarial examples are well studied in classification tasks, other learning problems may have different properties. For instance, semantic segmentation requires additional components such as dilated convolutions and multiscale processing. In this paper, we aim to characterize adversarial examples based on spatial context information in semantic segmentation. We observe that spatial consistency information can be potentially leveraged to detect adversarial examples robustly even when a strong adaptive attacker has access to the model and detection strategies. We also show that adversarial examples based on attacks considered within the paper barely transfer among models, even though transferability is common in classification. Our observations shed new light on developing adversarial attacks and defenses to better understand the vulnerabilities of DNNs.

研究动机与目标

  • 理解空间上下文信息如何影响语义分割中的对抗样本。
  • 提出一种空间一致性分析,用于区分良性输出与对抗性分割输出。
  • 评估在自适应与黑盒场景下空间一致性检测的鲁棒性。

提出的方法

  • 提出一种空间一致性分析,采样重叠的图像补丁并比较重叠区域的预测(以平均 IoU 衡量)。
  • 在多种空间上下文下对每像素自熵进行量化,以可视化预测的稳定性。
  • 通过将高斯模糊/尺度变换作为基线,比较空间一致性与基于尺度的检测。
  • 在在 Cityscapes 和 BDD100K 上训练的 DRN 和 DLA 这两个 state-of-the-art 分割模型上评估检测性能。
  • 在攻击者知晓防御策略的自适应攻击下,评估检测的鲁棒性。

实验结果

研究问题

  • RQ1在语义分割中,空间上下文信息能否揭示良性输入与对抗性输入之间的差异?
  • RQ2基于空间一致性的检测器对知晓防御策略的自适应攻击者是否鲁棒?
  • RQ3与分类任务相比,对抗样本在分割模型之间的可迁移性如何表现?

主要发现

  • 良性图像和对抗性图像在空间一致性上存在差异,重叠补丁的预测对对抗样本的 mIOU 低,而对良性样本的 mIOU 较高。
  • 在所测试的攻击和模型下,空间一致性检测器几乎达到对对抗样本的完美检测,即使攻击者知道防御策略(自适应攻击)。
  • 基于尺度的检测也能够区分对抗样本与良性输入,但相较于空间一致性方法,更容易受到自适应攻击的影响。
  • 针对一个分割模型生成的对抗样本向其他模型的迁移性较差,表明相比于分类任务,迁移性较低。
  • 随机化补丁选择(更大的 K)维持高检测性能并增加对手搜索复杂度,阻碍自适应攻击。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。