Skip to main content
QUICK REVIEW

[论文解读] A Unified Approach to Interpreting and Boosting Adversarial Transferability

Xin Wang, Jie Ren|arXiv (Cornell University)|Oct 8, 2020
Adversarial Robustness in Machine Learning被引用 34
一句话总结

本文使用 Shapley 交互指数来解释对抗性转移性,记录了转移性与交互之间的负相关性,并引入一种交互损失以提升转移性。

ABSTRACT

In this paper, we use the interaction inside adversarial perturbations to explain and boost the adversarial transferability. We discover and prove the negative correlation between the adversarial transferability and the interaction inside adversarial perturbations. The negative correlation is further verified through different DNNs with various inputs. Moreover, this negative correlation can be regarded as a unified perspective to understand current transferability-boosting methods. To this end, we prove that some classic methods of enhancing the transferability essentially decease interactions inside adversarial perturbations. Based on this, we propose to directly penalize interactions during the attacking process, which significantly improves the adversarial transferability.

研究动机与目标

  • 揭示对抗性转移性与扰动内部交互之间的关系。
  • 通过扰动交互的视角为现有的转移性增强方法提供统一的观点。
  • 提出并验证一种基于交互的损失以直接提升跨 DNN 的转移性。

提出的方法

  • 定义 Shapley value 和 Shapley interaction index,以衡量扰动单元的贡献和交互。
  • 证明多步攻击相对于单步攻击产生更大的扰动交互,从而解释转移性降低的原因。
  • 在理论上将现有的转移性增强方法联系并统一为减少交互的技术。
  • 提出交互损失(IR Attack),在攻击过程中对交互进行惩罚以改善转移性。
  • 实现基于网格的交互损失近似以控制计算成本。

实验结果

研究问题

  • RQ1对抗性转移性与扰动单元之间的交互之间是否存在负相关性?
  • RQ2在攻击过程中对交互进行惩罚是否可以提升跨模型在多种 DNN 架构上的转移性?
  • RQ3经典的转移性增强方法是否隐含地减少了交互,从而为它们的有效性提供统一的解释?
  • RQ4仅使用基于交互的损失(IR Attack)或与其他方法结合时,是否在未加固和加固模型上都能够提升转移性?
  • RQ5在大规模图像上以网格等级计算并应用交互损失的实用性如何?

主要发现

  • 从理论和实证上证明转移性与扰动内部交互之间存在负相关性。
  • 经典的转移性增强方法在很大程度上减少扰动交互,为它们的有效性提供统一的解释。
  • 交互损失可以显著提高跨多个源/目标模型对抗性转移性。
  • 通过 IR Attack 对交互进行惩罚,即使与其他转移性增强策略结合时也仍然有效。
  • 网格级交互惩罚在性能和计算之间提供了实用的折衷。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。