QUICK REVIEW

[论文解读] Data Poisoning Attacks against Online Learning

Yizhen Wang, Kamalika Chaudhuri|arXiv (Cornell University)|Aug 27, 2018

Adversarial Robustness in Machine Learning参考文献 2被引用 55

一句话总结

本文将在线学习中的数据污染攻击形式化，提出基于优化的策略来污染流数据，并在半在线和全在线设置下评估它们的有效性。

ABSTRACT

We consider data poisoning attacks, a class of adversarial attacks on machine learning where an adversary has the power to alter a small fraction of the training data in order to make the trained classifier satisfy certain objectives. While there has been much prior work on data poisoning, most of it is in the offline setting, and attacks for online learning, where training data arrives in a streaming manner, are not well understood. In this work, we initiate a systematic investigation of data poisoning attacks for online learning. We formalize the problem into two settings, and we propose a general attack strategy, formulated as an optimization problem, that applies to both with some modifications. We propose three solution strategies, and perform extensive experimental evaluation. Finally, we discuss the implications of our findings for building successful defenses.

研究动机与目标

激发在数据以流方式到达的在线学习环境中研究数据污染。
将半在线和全在线攻击设置形式化并定义攻击者目标。
开发适应在线梯度下降更新的基于优化的攻击策略。
分析数据顺序和学习率如何影响攻击效果。
讨论防御含义以及潜在稳健的在线学习方法。

提出的方法

将在线学习建模为带有流数据的在线梯度下降，目标函数是凸损失加正则化项。
在可行集 F 下，将攻击者优化表达为最多修改流中的 K 点。
引入三种攻击范例：增量攻击、区间攻击，以及教-强化攻击。
在需要时应用标签反转并对目标函数进行平滑处理，以实现基于梯度的优化。
通过链式法则结合递归前缀形式来计算梯度，以处理在线更新。
在四个数据集上，在半在线和全在线设置下，结合多种学习率方案评估攻击。

实验结果

研究问题

RQ1通过修改数据流中的极小部分，敌对方是否能够在在线学习中有效实现数据污染？
RQ2在线设置（半在线与全在线）和学习率如何影响数据污染攻击的强度？
RQ3在不同设置下，数据流中攻击修改最具影响力的位置在哪儿？
RQ4基于梯度的在线攻击在在线学习中是否优于无知基线或标签翻转基线？
RQ5哪些防御措施可以缓解流式分类器中的在线数据污染威胁？

主要发现

在线对手在被污染的在线学习中显著优于无知基线或标签翻转基线。
攻击效果取决于学习率；快速衰减的学习率更易受到污染。
半在线设置往往比全在线设置更容易受到这些攻击的影响。
增量攻击和区间攻击在半在线中通常更有效，而教-强化在全在线场景中表现最佳。
攻击位置模式随数据集和设置而异，在某些情况下强调流末尾，在其他情况下强调流开头。
基于梯度的在线攻击在合成数据集、MNIST 和 Spambase 等数据集上仍然有效，强调在线性特性是一个关键脆弱点。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。