Skip to main content
QUICK REVIEW

[论文解读] Towards Frequency-Based Explanation for Robust CNN

Zifan Wang, Yilin Yang|arXiv (Cornell University)|May 6, 2020
Adversarial Robustness in Machine Learning参考文献 25被引用 24
一句话总结

本文提出一种基于频率的解释方法——遮挡频率(Occluded Frequency),用于量化输入图像中不同频率分量对卷积神经网络(CNN)预测的贡献。结果表明,标准模型严重依赖高频特征,因而容易受到对抗攻击;而经过对抗训练的鲁棒模型则将依赖重心转向低频分量,从而解释了其对微小扰动具有更强的鲁棒性。

ABSTRACT

Current explanation techniques towards a transparent Convolutional Neural Network (CNN) mainly focuses on building connections between the human-understandable input features with models' prediction, overlooking an alternative representation of the input, the frequency components decomposition. In this work, we present an analysis of the connection between the distribution of frequency components in the input dataset and the reasoning process the model learns from the data. We further provide quantification analysis about the contribution of different frequency components toward the model's prediction. We show that the vulnerability of the model against tiny distortions is a result of the model is relying on the high-frequency features, the target features of the adversarial (black and white-box) attackers, to make the prediction. We further show that if the model develops stronger association between the low-frequency component with true labels, the model is more robust, which is the explanation of why adversarially trained models are more robust against tiny distortions.

研究动机与目标

  • 探究频率分量在CNN决策和模型鲁棒性中的作用。
  • 揭示尽管性能优异,标准CNN为何仍易受对抗攻击。
  • 开发一种频率归因方法,以量化每个频率带对模型预测的贡献。
  • 通过基于频率的分析,解释对抗训练模型的鲁棒性。
  • 弥合输入信号表示(频域)与模型鲁棒性行为之间的鸿沟。

提出的方法

  • 作者使用离散傅里叶变换(DFT)将输入图像分解为全频谱范围内的频率分量。
  • 提出遮挡频率(Occluded Frequency)这一归因方法,通过逐一屏蔽特定频率带并测量输出置信度的变化,来计算预测变化。
  • 通过系统性地移除各频率分量并测量模型置信度的下降,计算每个频率分量的归因分数。
  • 在CIFAR-10数据集上,对比标准模型与对抗训练模型的归因分数,分析其频率依赖性的变化。
  • 分析对抗攻击中的扰动,表明大多数失真集中在高频带。
  • 基于最低(最易察觉)频率分量,建立扰动大小的理论下界。

实验结果

研究问题

  • RQ1输入图像中的不同频率分量如何影响CNN的最终预测?
  • RQ2为何标准CNN即使性能优异,仍对人类难以察觉的对抗攻击敏感?
  • RQ3与标准模型相比,对抗训练模型在多大程度上减少了对高频分量的依赖?
  • RQ4基于频率的归因方法能否解释对抗训练模型的鲁棒性?
  • RQ5对抗攻击是否主要针对高频分量?若是,为何这会使模型变得脆弱?

主要发现

  • 标准CNN在预测中更严重依赖高频分量,这些分量对人类不敏感但对微小扰动高度敏感。
  • 无论是白盒还是黑盒对抗攻击,主要通过对高频分量进行失真来实现,从而利用模型对这些分量的过度依赖。
  • 遮挡频率方法成功量化了归因,揭示了在标准模型中,高频分量通常具有最高的归因分数。
  • 通过对抗训练获得的鲁棒模型显著降低了对中频和高频分量的归因,转而聚焦于低频特征。
  • 对低频分量的归因增强与鲁棒性提升密切相关,解释了为何对抗训练模型能抵抗微小扰动。
  • 扰动大小的理论下界由最低(最易察觉)频率分量决定,因为这些分量在不被人类察觉的前提下难以被改变。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。