[论文解读] Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks
本文提出了一种针对神经网络的定向干净标签投毒攻击,可在不降低整体性能的前提下,操控模型在特定测试样本上的行为。通过优化投毒图像,使其与网络隐藏层中的目标特征对齐(采用水印技术和多样化的基础图像),在迁移学习中实现100%的成功率,在端到端训练中最高达60%的成功率,仅使用约50个投毒样本。
Data poisoning is an attack on machine learning models wherein the attacker adds examples to the training set to manipulate the behavior of the model at test time. This paper explores poisoning attacks on neural nets. The proposed attacks use "clean-labels"; they don't require the attacker to have any control over the labeling of training data. They are also targeted; they control the behavior of the classifier on a $ extit{specific}$ test instance without degrading overall classifier performance. For example, an attacker could add a seemingly innocuous image (that is properly labeled) to a training set for a face recognition engine, and control the identity of a chosen person at test time. Because the attacker does not need to control the labeling function, poisons could be entered into the training set simply by leaving them on the web and waiting for them to be scraped by a data collection bot. We present an optimization-based method for crafting poisons, and show that just one single poison image can control classifier behavior when transfer learning is used. For full end-to-end training, we present a "watermarking" strategy that makes poisoning reliable using multiple ($\approx$50) poisoned training instances. We demonstrate our method by generating poisoned frog images from the CIFAR dataset and using them to manipulate image classifiers.
研究动机与目标
- 开发针对特定测试样本的定向投毒攻击,使其在不降低整体准确率的前提下操控分类器行为。
- 设计使用干净标签训练数据(由人工或自动化系统正确标注)的攻击方法,使其无法被标准数据质量检查所检测。
- 通过允许攻击者通过公开数据源(如网络爬取的图像)注入投毒样本(无需控制标注过程),提升攻击在现实场景中的可行性。
- 克服端到端训练中的挑战,因为在深度网络中表达性特征使投毒比在迁移学习中更困难。
- 证明即使仅使用少量精心构造的、带水印的投毒样本,也能可靠地诱导模型将特定目标样本错误分类。
提出的方法
- 使用优化(算法1)生成与神经网络特征空间中目标图像对齐的投毒图像。
- 通过在可控透明度下(例如20–30%)将目标图像与基础图像混合,应用水印技术以增强特征重叠。
- 使用多个多样化的基础图像生成一组投毒样本,防止网络学习到针对目标的特定特征。
- 在端到端训练中,通过使用高投毒多样性,利用特征空间坍缩(即目标被拉向基础分布)机制。
- 采用留一法消融研究,验证优化、多样性与水印技术对成功投毒均不可或缺。
- 使用影响函数和特征可视化分析投毒在迁移学习与端到端训练中表现不同的原因。
实验结果
研究问题
- RQ1是否可以在极低投毒预算且无标注控制的前提下实现定向干净标签投毒?
- RQ2为何投毒在迁移学习中比在端到端训练中更有效?这一差距如何弥合?
- RQ3在端到端训练中,透明度可控的水印技术如何提升投毒攻击的成功率?
- RQ4在端到端训练中,投毒多样性在多大程度上提升攻击成功率?
- RQ5异常目标(低置信度样本)是否比标准目标更容易被操控?
主要发现
- 所提出的干净标签攻击在迁移学习场景中实现100%的成功率,优于先前工作在相同任务中仅达到57%成功率的表现。
- 在端到端训练中,该攻击使用约50张投毒图像最高实现60%的成功率,且成功率随投毒样本数量单调上升。
- 针对低置信度(异常)样本的目标使成功率提升至70%,较随机目标提高17%。
- 使用30%透明度的水印显著提升成功率,而将透明度降低至20%则导致性能下降,表明对特征重叠程度高度敏感。
- 在端到端训练中,决策边界几乎保持不变,表明投毒通过特征空间漂移而非边界旋转起作用。
- 消融研究证实,优化、多样性与水印技术三者均为端到端训练中成功投毒所必需的要素。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。