[论文解读] Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks
本文提出了用于评估图像分类器的后门和无触发恶意数据(data poisoning)攻击的标准化基准,并展示了实验设计与训练设置如何显著影响攻击有效性。
Data poisoning and backdoor attacks manipulate training data in order to cause models to fail during inference. A recent survey of industry practitioners found that data poisoning is the number one concern among threats ranging from model stealing to adversarial attacks. However, it remains unclear exactly how dangerous poisoning methods are and which ones are more effective considering that these methods, even ones with identical objectives, have not been tested in consistent or realistic settings. We observe that data poisoning and backdoor attacks are highly sensitive to variations in the testing setup. Moreover, we find that existing methods may not generalize to realistic settings. While these existing works serve as valuable prototypes for data poisoning, we apply rigorous tests to determine the extent to which we should fear them. In order to promote fair comparison in future work, we develop standardized benchmarks for data poisoning and backdoor attacks.
研究动机与目标
- 推动对数据中毒和后门攻击的公平、可比较评估。
- 识别测试设置、数据集规模和训练协议如何影响攻击成功率。
- 提供标准化基准和公开可用的代码以实现可重复评估。
提出的方法
- 在统一框架下定义并比较无触发和后门数据中毒攻击。
- 对数据、威胁模型和训练机制(迁移学习与从零开始)进行标准化。
- 将中毒样本限制在8/255的l-infinity球内,并在白盒和黑盒设置下进行评估。
- 采用随机化的目标/基准图像对,每个实验进行100次试验以量化方差。
- 评估优化器(SGD 与 Adam)、数据增强以及受害者模型架构对攻击成功的影响。
- 提供预训练模型和固定的评估协议,以实现跨方法的公平基准比较。
实验结果
研究问题
- RQ1现实的训练设置和基准测试如何影响观察到的中毒攻击有效性?
- RQ2常用的中毒预算(被污染数据的百分比)在不同数据集规模和架构上是否能可靠预测攻击强度?
- RQ3在标准化基准中,迁移学习与从零开始的训练模式如何影响攻击成功?
- RQ4哪些因素(如数据增强、优化器、模型架构)最显著改变系统对数据中毒攻击的脆弱性?
- RQ5在标准化评估下,报告的“干净标签”中毒真的是干净的吗?
主要发现
- 攻击有效性对训练设置和数据集上下文高度敏感。
- 在数据增强下的SGD相比Adam和无增强显著降低攻击成功率(例如,在增强的SGD设置中,FC和CP降至51.00%和19.09%)。
- 受害者架构很重要;某些攻击在ResNet-18上的效果远不如在AlexNet及其变体上。
- 许多所谓的干净标签中毒在常见扰动半径下会显现可感知的伪影,挑战了“干净”标签的说法。
- 仅凭预算百分比不足以描述攻击,数据集规模本质上改变攻击有效性,攻击曲线在方法间可能相互交叉。
- 黑盒迁移攻击的成功率远低于白盒基线(通常<20%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。