QUICK REVIEW

[论文解读] Spectral Signatures in Backdoor Attacks

Brandon Tran, Jerry Li|arXiv (Cornell University)|Nov 1, 2018

Adversarial Robustness in Machine Learning参考文献 32被引用 237

一句话总结

本文表明后门攻击在学习到的表示中留下可检测的光谱特征，并使用鲁棒统计量（SVD）来识别并移除被污染的训练样本，从而在 CIFAR-10 上恢复接近干净的准确率。

ABSTRACT

A recent line of work has uncovered a new form of data poisoning: so-called \emph{backdoor} attacks. These attacks are particularly dangerous because they do not affect a network's behavior on typical, benign data. Rather, the network only deviates from its expected output when triggered by a perturbation planted by an adversary. In this paper, we identify a new property of all known backdoor attacks, which we call \emph{spectral signatures}. This property allows us to utilize tools from robust statistics to thwart the attacks. We demonstrate the efficacy of these signatures in detecting and removing poisoned examples on real image sets and state of the art neural network architectures. We believe that understanding spectral signatures is a crucial first step towards designing ML systems secure against such backdoor attacks

研究动机与目标

动机：后门攻击仅在对抗性扰动的输入上导致错分，而不会降低良性测试数据的准确率。
目标：在学习到的表示中识别后门留下的可检测光谱特征。
目标：开发一种防御，检测并移除被污染的训练数据，以恢复稳健性能。
展示基于光谱特征的防御在真实图像数据集和网络架构上的实用性。

提出的方法

训练一个神经网络并对每个输入提取学习到的表示。
计算各类别表示的协方差并应用 SVD 来检测离群点。
通过最上奇异向量定义离群分数，并移除被污染比例的前 1.5 倍样本。
在清洗后的数据集上重新训练网络，并在自然测试集和带后门的测试集上进行评估。
通过一个光谱可分离条件提供理论直觉，确保被污染点可被检测到。

实验结果

研究问题

RQ1学习到的表示的光谱特性是否能区分干净的训练样本与带有后门的样本？
RQ2应用于学习表示的鲁棒统计工具是否能可靠地识别并移除被污染的输入？
RQ3基于光谱签名的防御在不同架构和攻击配置下是否有效？
RQ4在表示空间中哪些条件能确保干净子群和被污染子群的可靠分离？

主要发现

后门攻击在学习到的表示协方差中留下可检测的光谱特征。
利用最上奇异向量和离群分数可以识别并从训练数据中移除被污染的样本。
在 CIFAR-10 上，尽管污染样本仅有 250 个，模型对带后门的测试输入的错分率超过 90%，同时保持较高的干净准确率。
在移除检测到的被污染点并重新训练后，带后门数据的错分率降至接近干净模型性能的 1% 内。
基于鲁棒统计的光谱方法在区分干净与被污染输入方面优于较弱的数据级统计方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。