[论文解读] Certified Defenses for Data Poisoning Attacks
本文提出一个框架,通过推导对执行异常值移除再进行经验风险最小化的 defenses 的 worst-case 损失的近似上界,并提供一个可实践的攻击以接近这些界限。
Machine learning systems trained on user-provided data are susceptible to data poisoning attacks, whereby malicious users inject false training data with the aim of corrupting the learned model. While recent work has proposed a number of attacks and defenses, little is understood about the worst-case loss of a defense in the face of a determined attacker. We address this by constructing approximate upper bounds on the loss across a broad family of attacks, for defenders that first perform outlier removal followed by empirical risk minimization. Our approximation relies on two assumptions: (1) that the dataset is large enough for statistical concentration between train and test error to hold, and (2) that outliers within the clean (non-poisoned) data do not have a strong effect on the model. Our bound comes paired with a candidate attack that often nearly matches the upper bound, giving us a powerful tool for quickly assessing defenses on a given dataset. Empirically, we find that even under a simple defense, the MNIST-1-7 and Dogfish datasets are resilient to attack, while in contrast the IMDB sentiment dataset can be driven from 12% to 23% test error by adding only 3% poisoned data.
研究动机与目标
- 动机:需要理解在最坏情况数据中毒下防御的鲁棒性。
- 提出一个框架,用于对一类净化防御的最坏-case 损失进行界定。
- 开发一种高效的在线学习方法,用于计算极小极大界和生成候选攻击。
- 区分固定的(数据无关)与数据相关的防御,以分析脆弱性。
- 在图像和文本数据集上进行实证演示,以揭示数据集相关的鲁棒性。
提出的方法
- 考虑具有边际损失的预测任务及一个致病性数据中毒攻击模型。
- 使用通过可行集 F 移除异常值的净化防御,并在剩余数据上训练。
- 利用三个将训练损失、测试损失与内点相关联的近似,推导最大攻击损失的近似上界。
- 应用在线学习来计算极大极小损失 M,并产生候选攻击集合 Dp。
- 通过放宽到对 Dp 的分布、求解放宽的最大化问题,将其扩展到数据相关的防御。
- 指定两种实例:oracle(真实类别质心)与经验质心,并通过 Sphere 和 Slab 防御进行示例说明。
实验结果
研究问题
- RQ1在使用异常值移除后再进行经验风险最小化的情况下,防御者在数据中毒下能承受的最坏测试损失是多少?
- RQ2如何为固定的与数据相关的异常值防御计算紧密的上界并构造攻击者策略?
- RQ3数据集结构(如维度和特征相关性)如何影响对中毒攻击的防御性?
- RQ4在实践中,基于 oracle 的鲁棒性与数据相关防御之间的差距是多少?
- RQ5基于在线学习的方法是否能够对鲁棒性进行认证并生成近似最优的中毒策略?
主要发现
- 基于 oracle 的 sphere/slab 防御在 MNIST-1-7 与 Dogfish 上即使 poisoned 数据高达 30%,也给出较小的认证界(例如上界小于 0.1)。
- 在相同防御下,IMDB 情感数据仅 3% 的中毒即可将测试误差从 12% 提升到 23%,显示数据集依赖性。
- 数据相关防御可能弱得多;在经验质心防御下,MNIST-1-7 与 Dogfish 的攻击增速更快,30% 中毒时测试损失显著上升。
- 对于较小的中毒比例(≤5%),在 MNIST-1-7 与 Dogfish 上鲁棒性仍然存在,但较大中毒允许破坏异常值移除。
- 在文本数据上,尽管通过了 oracle 防御,IMDB 仍显示明显脆弱性,而 Enron 在完整性约束下也表现出可攻击性。
- 基于极小极大框架推导的攻击策略在若干实验中与上界高度一致,验证了该方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。