QUICK REVIEW

[论文解读] Online Data Poisoning Attack

Xuezhou Zhang, Xiaojin Zhu|arXiv (Cornell University)|Mar 5, 2019

Network Security and Intrusion Detection参考文献 43被引用 18

一句话总结

本文将在线数据 poisoning 攻击形式化为一个随机最优控制问题，提出两种方法——模型预测控制（MPC）和深度强化学习（DDPG）——在不了解未来数据或数据分布的情况下，实现实时近似最优攻击。实验表明，这两种方法均能实现接近知晓未来的全知攻击者（clairvoyant attacker）的性能，证明了其在监督和无监督在线学习任务中的强大有效性。

ABSTRACT

We study data poisoning attacks in the online setting where training items arrive sequentially, and the attacker may perturb the current item to manipulate online learning. Importantly, the attacker has no knowledge of future training items nor the data generating distribution. We formulate online data poisoning attack as a stochastic optimal control problem, and solve it with model predictive control and deep reinforcement learning. We also upper bound the suboptimality suffered by the attacker for not knowing the data generating distribution. Experiments validate our control approach in generating near-optimal attacks on both supervised and unsupervised learning tasks.

研究动机与目标

为解决在线数据 poisoning 攻击中理解不足的问题，即攻击者在数据实时到达时进行操纵。
在部分信息条件下，将在线数据 poisoning 形式化为随机最优控制问题。
开发实用的攻击算法，即使缺乏对数据生成分布或未来数据的了解，也能实现近似最优性能。
理论上界定现实攻击者与拥有完整未来知识的全知攻击者之间的性能差距。
在合成数据集和真实世界数据集上，对在线监督和无监督学习任务中的所提方法进行验证。

提出的方法

将在线数据 poisoning 形式化为随机最优控制问题，攻击者选择扰动以最小化累积成本，同时推动受害模型向目标方向演化。
使用具有有限前瞻时域的模型预测控制（MPC），基于对未来数据的预测来规划攻击，平衡即时成本与长期成本。
采用深度强化学习（DDPG）来学习一个策略，将观测状态（当前数据和模型）映射为扰动动作，从而实现实时、自适应的攻击决策。
引入一个扰动成本函数 $ g_{\text{per}}(\mathbf{z}_t, \mathbf{a}_t) = \|\mathbf{a}_t - \mathbf{z}_t\|_p $，以惩罚过大的数据修改。
定义一个恶意成本 $ g_{\text{nef}}(\theta) $，用于编码攻击目标，如针对特定模型 $ \theta^\dagger $、避免良好模型 $ \hat{\theta} $，或启用后门触发。
使用折扣累积奖励 $ \tilde{J}(t) = \sum_{\tau=0}^{t} \gamma^{\tau} (g_{\text{nef}}(\theta_\tau) + g_{\text{per}}(\mathbf{z}_\tau, \mathbf{a}_\tau)) $ 来评估随时间推移的攻击性能。

实验结果

研究问题

RQ1当攻击者不了解数据分布或未来数据点时，如何将在线数据 poisoning 最优地形式化为随机控制问题？
RQ2现实攻击者能在多大程度上实现接近全知攻击者（知晓未来数据分布）的性能？
RQ3模型预测控制和深度强化学习能否在信息有限的在线学习环境中有效生成近似最优攻击？
RQ4在累积成本和适应性方面，贪婪策略、短视策略与长期规划策略之间的表现如何比较？
RQ5计算限制（如有限的前瞻时域）对基于规划和基于学习的攻击方法性能有何影响？

主要发现

全知攻击者（知晓未来）在全部10个真实数据集上均实现最低的累积成本，证实其理论最优性。
当前瞻时域足够大（$ h=80 $）时，NLP（前瞻规划）方法在7个数据集上达到与全知攻击者相当的性能，证明了其规划能力的强大。
基于DDPG的攻击者在大多数数据集上表现接近MPC和全知方法，表明即使没有显式未来知识，学习策略也能实现良好泛化。
GREEDY方法表现较差，仅比NULL基线略有提升，证实短视策略在长期在线攻击中无效。
MPC和DDPG均表现出战略性行为：它们在初期承受更高的扰动成本，以换取在长期显著降低的攻击成本，尤其在$ t=50 $之后更为明显，表明具备有效的长时域规划能力。
当计算限制导致前瞻时域受限（如$ h=20 $）时，DDPG优于短视的NLP方法，表明在资源受限条件下，学习策略比迭代规划更具适应性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。