[论文解读] Generative Poisoning Attack Method Against Neural Networks
本文提出一种生成式方法,用于为神经网络创建被污染的输入以降低准确性,相较于直接梯度方法极大加速数据投毒(最高快到 239.38×),并在 MNIST 与 CIFAR-10 实验中展示以及一个基于损失的对策。
Poisoning attack is identified as a severe security threat to machine learning algorithms. In many applications, for example, deep neural network (DNN) models collect public data as the inputs to perform re-training, where the input data can be poisoned. Although poisoning attack against support vector machines (SVM) has been extensively studied before, there is still very limited knowledge about how such attack can be implemented on neural networks (NN), especially DNNs. In this work, we first examine the possibility of applying traditional gradient-based method (named as the direct gradient method) to generate poisoned data against NNs by leveraging the gradient of the target model w.r.t. the normal data. We then propose a generative method to accelerate the generation rate of the poisoned data: an auto-encoder (generator) used to generate poisoned data is updated by a reward function of the loss, and the target NN model (discriminator) receives the poisoned data to calculate the loss w.r.t. the normal data. Our experiment results show that the generative method can speed up the poisoned data generation rate by up to 239.38x compared with the direct gradient method, with slightly lower model accuracy degradation. A countermeasure is also designed to detect such poisoning attack methods by checking the loss of the target model.
研究动机与目标
- 研究使用梯度基方法对神经网络进行投毒攻击的可行性。
- 开发一种生成式(基于自编码器)方法以加速被污染数据的生成。
- 将生成式方法与直接梯度攻击在速度和对模型准确性影响方面进行比较。
- 提出一种低开销的基于损失的对策来检测投毒攻击。
- 评估在 MNIST 和 CIFAR-10 数据集上的有效性。
提出的方法
- 通过对被污染数据的梯度求导并通过梯度上升更新被污染输入来分析直接梯度投毒。
- 引入一个生成器(自编码器),产生被污染的数据,并由从损失差异推导的奖励函数更新。
- 使用判别器(目标神经网络)计算损失和送回生成器的梯度,隐式处理二阶导数。
- 为直接梯度方法给出算法1,为生成方法给出算法2,以减少显式的二阶导数计算。
- 设计一个基于连续攻击中损失差异的奖励函数来训练生成器。
- 提出一种基于损失的对策(算法3),当输入引起的损失超过阈值时触发警报。
实验结果
研究问题
- RQ1是否能使用梯度基方法在神经网络上有效执行投毒攻击?
- RQ2相比直接梯度方法,生成式(基于自编码器)方法是否显著加速被污染数据的生成?
- RQ3攻击对像 MNIST 和 CIFAR-10 这样的标准数据集上的模型准确性有何影响?
- RQ4低开销的基于损失的检测器在训练过程中是否能可靠地识别污染输入?
主要发现
- 与直接梯度方法相比,生成式方法在 CIFAR-10 上将被污染数据生成速度提升最多 239.38×,并提高对更大网络的可扩展性。
- 在 MNIST 上,最佳生成式方法在 1000 组设定下将准确率降至 16.59%(直接梯度为 8.84%),同时仍显示出显著的速度提升。
- 在 CIFAR-10 上,生成式方法在时间开销更低的情况下表现出相似或更好的攻击效果,尤其随着数据集规模增大。
- 直接梯度方法耗时且随输入维度和模型复杂度而扩大,生成方法缓解了这一瓶颈。
- 基于损失的对策通过监控损失峰值来检测投毒;过多的警告可以触发准确性检查以在低开销下识别攻击。
- 实验表明投毒攻击降低了目标模型的性能,且生成器引导的方法在更大网络上更具可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。