Skip to main content
QUICK REVIEW

[论文解读] Poisoning the Unlabeled Dataset of Semi-Supervised Learning

Nicholas Carlini|arXiv (Cornell University)|Jan 1, 2021
Adversarial Robustness in Machine Learning被引用 5
一句话总结

本文揭示了半监督学习模型在针对未标记数据集的投毒攻击下存在脆弱性,仅需0.1%的恶意构造的未标记样本,即可使模型将任意测试输入错误分类为期望的标签。该攻击在多个数据集和方法上均有效,且模型越精确则越易受攻击,作者提出了两种防御机制以缓解此威胁。

ABSTRACT

Semi-supervised machine learning models learn from a (small) set of labeled training examples, and a (large) set of unlabeled training examples. State-of-the-art models can reach within a few percentage points of fully-supervised training, while requiring 100x less labeled data. We study a new class of vulnerabilities: poisoning attacks that modify the unlabeled dataset. In order to be useful, unlabeled datasets are given strictly less review than labeled datasets, and adversaries can therefore poison them easily. By inserting maliciously-crafted unlabeled examples totaling just 0.1% of the dataset size, we can manipulate a model trained on this poisoned dataset to misclassify arbitrary examples at test time (as any desired label). Our attacks are highly effective across datasets and semi-supervised learning methods. We find that more accurate methods (thus more likely to be used) are significantly more vulnerable to poisoning attacks, and as such better training methods are unlikely to prevent this attack. To counter this we explore the space of defenses, and propose two methods that mitigate our attack.

研究动机与目标

  • 调查半监督学习模型在未标记训练数据上的投毒攻击脆弱性。
  • 证明攻击者可通过注入极小比例(0.1%)的精心构造的未标记样本,操纵模型行为。
  • 分析模型准确率与对这类投毒攻击易感性之间的关系。
  • 提出并评估针对半监督学习中未标记数据投毒的防御机制。

提出的方法

  • 攻击生成对抗性的未标记样本,这些样本被战略性地构造以在训练过程中误导模型。
  • 该方法利用模型对未标记数据进行伪标签预测的依赖性,传播错误分类行为。
  • 采用基于梯度的优化方法,生成能最大化模型在特定测试输入上误分类率的未标记样本。
  • 攻击在训练阶段实施,其中污染的未标记数据与少量有标签样本一同使用。
  • 基于数据清洗和鲁棒训练技术提出防御措施,以检测并缓解污染样本的影响。
  • 通过在多个半监督学习基准上的实证评估,验证防御措施的有效性。

实验结果

研究问题

  • RQ1在半监督学习中,对未标记数据的投毒攻击是否能以极低的数据注入量实现高成功率?
  • RQ2半监督模型的准确率与其对未标记数据投毒的易感性之间是否存在相关性?
  • RQ3哪些关键特征使未标记数据集中的对抗性样本能有效导致模型误分类?
  • RQ4现有防御机制是否能有效检测并中和半监督训练中的污染未标记样本?
  • RQ5该攻击在不同数据集和半监督学习架构上的表现如何?

主要发现

  • 仅修改0.1%的未标记数据集,即可成功使模型将任意期望的测试样本错误分类为目标标签。
  • 更精确的半监督学习模型对投毒攻击表现出显著更高的脆弱性,表明性能与鲁棒性之间存在权衡。
  • 该攻击在多个数据集和半监督学习方法(包括最先进方法)上均有效。
  • 所提出的防御措施显著降低了投毒攻击的成功率,证明了缓解的可行性。
  • 即使模型采用基于置信度的伪标签机制,攻击仍保持有效,凸显了所构造样本的隐蔽性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。