QUICK REVIEW

[论文解读] Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses

Micah Goldblum, Dimitris Tsipras|arXiv (Cornell University)|Dec 18, 2020

Adversarial Robustness in Machine Learning被引用 24

一句话总结

本文提出了机器学习中数据投毒与后门攻击的全面分类体系，将训练阶段攻击、双阶段训练/测试攻击（后门）以及防御策略进行分类。该工作统一了多种威胁模型，分析了检测与鲁棒训练类防御方法，并指出了在联邦学习与迁移学习场景下，安全、准确率与隐私之间权衡的关键开放问题。

ABSTRACT

As machine learning systems grow in scale, so do their training data requirements, forcing practitioners to automate and outsource the curation of training data in order to achieve state-of-the-art performance. The absence of trustworthy human supervision over the data collection process exposes organizations to security vulnerabilities; training data can be manipulated to control and degrade the downstream behaviors of learned models. The goal of this work is to systematically categorize and discuss a wide range of dataset vulnerabilities and exploits, approaches for defending against these threats, and an array of open problems in this space. In addition to describing various poisoning and backdoor threat models and the relationships among them, we develop their unified taxonomy.

研究动机与目标

系统化并分类机器学习中的数据集漏洞，特别是由不可信或自动化数据收集引发的漏洞。
分析数据投毒与后门攻击的威胁态势，区分仅训练阶段攻击与双阶段训练/测试（后门）攻击。
评估现有防御机制（包括基于检测与基于训练的）对投毒威胁的应对能力。
识别在鲁棒性、效率与隐私保护防御方面存在的关键开放问题，特别是在联邦学习与迁移学习场景下。
突出现代机器学习系统在面临投毒威胁时，模型准确率、安全性与数据隐私之间的张力。

提出的方法

基于攻击方法（如双层优化、标签翻转、影响函数）与威胁模型（仅训练、后门、联邦）提出统一的数据投毒攻击分类体系。
根据优化策略（如双层优化、p-篡改）与目标（从零开始训练或微调模型）对攻击进行分类，区分模型无关与模型特定的方法。
回顾基于检测的防御方法，通过辅助干净/投毒模型与表示空间中的异常检测来识别投毒数据或模型。
研究基于训练的防御方法，如鲁棒优化与事后校正，以在不从头训练的情况下减轻投毒影响。
分析认证防御与差分隐私在缓解投毒攻击中的可行性，尤其在数据分布异构的联邦学习环境中。
评估现有防御的局限性，包括无需训练访问即可绕过防御，以及检测方法计算成本过高的问题。

实验结果

研究问题

RQ1不同数据投毒攻击策略（如标签翻转、特征冲突、双层优化）在影响程度与可检测性方面有何差异？
RQ2在无训练协议或数据访问权限的情况下，能否构建出可绕过投毒攻击的防御机制？
RQ3在存在数据投毒的情况下，模型准确率、安全性与数据隐私之间存在哪些根本性权衡，特别是在联邦学习中？
RQ4为何基于异常的检测方法对隐蔽投毒样本无效，如何在异构数据环境中解决此问题？
RQ5能否在去中心化环境（如联邦学习）中，将针对数据投毒的认证防御有效扩展至大规模真实世界模型？

主要发现

由于开放世界数据收集的普及，数据投毒与后门攻击日益普遍，如Tay聊天机器人事件与ImageNet中的恶意软件案例所证实。
许多防御机制可在无训练数据访问的情况下被绕过，如通过使投毒与干净样本的内部表示对齐的攻击。
基于检测的防御通常需要昂贵的辅助模型训练与干净数据集，限制了其在实际部署中的可行性。
差分隐私的理论最坏情况边界与实际对抗投毒攻击的表现之间存在显著差距，表明攻击可能较弱，或边界估计过于悲观。
针对数据投毒的认证防御对大规模模型仍不切实际，尤其在联邦学习中，因难以建模本地数据对全局更新的影响。
当恶意客户端模仿正常但非典型的分布时，异常检测在联邦学习中失效，导致客户端级别的区分极为困难。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。