[论文解读] Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective
一份统一的基于生命周期的对抗性机器学习(AML)攻击的综述,提出一个通用框架和分类体系,覆盖在预训练、训练、后训练、部署和推断阶段的后门、权重和对抗样本攻击。
Adversarial machine learning (AML) studies the adversarial phenomenon of machine learning, which may make inconsistent or unexpected predictions with humans. Some paradigms have been recently developed to explore this adversarial phenomenon occurring at different stages of a machine learning system, such as backdoor attack occurring at the pre-training, in-training and inference stage; weight attack occurring at the post-training, deployment and inference stage; adversarial attack occurring at the inference stage. However, although these adversarial paradigms share a common goal, their developments are almost independent, and there is still no big picture of AML. In this work, we aim to provide a unified perspective to the AML community to systematically review the overall progress of this field. We firstly provide a general definition about AML, and then propose a unified mathematical framework to covering existing attack paradigms. According to the proposed unified framework, we build a full taxonomy to systematically categorize and review existing representative methods for each paradigm. Besides, using this unified framework, it is easy to figure out the connections and differences among different attack paradigms, which may inspire future researchers to develop more advanced attack paradigms. Finally, to facilitate the viewing of the built taxonomy and the related literature in adversarial machine learning, we further provide a website, \ie, \url{http://adversarial-ml.com}, where the taxonomies and literature will be continuously updated.
研究动机与目标
- 提供对 AML 的一般定义以及覆盖现有攻击范式的统一数学框架。
- 建立一个完整的分类体系,以在生命周期各阶段对 AML 攻击进行分类和评审。
- 揭示攻击范式之间的联系与差异,以指导未来的研究与防御。
提出的方法
- 提出一个具有三个组成部分的一般 AML 公式:隐蔽性、良性一致性和对抗性不一致。
- 通过指定项和目标(方程 2–4)将一般公式细化为后门、权重和对抗样本攻击范式。
- 按触发、样本选择、融合和目标类别对基于数据污染的后门攻击进行分类(方程 5 与第三节)。
- 区分触发可见性(可见/不可见)、语义含义、触发设计(人工 vs. 可学习)以及数字触发与物理触发(第三节)。
- 区分样本选择策略(随机 vs. 非随机)和触发融合策略(加法性 vs. 非加法性;对样本不可知 vs. 针对特定样本)(III-C–III-D 节)。
实验结果
研究问题
- RQ1如何在跨越多个生命周期阶段的统一数学框架内将 AML 攻击形式化?
- RQ2后门、权重和对抗样本攻击之间的规范性分类和联系是什么?
- RQ3触发设计、样本选择和融合的选择如何影响训练和推断阶段的攻击隐蔽性与成功率?
- RQ4哪些见解有助于在跨 AML 范式的防御开发中提供指导?
主要发现
- 统一的 AML 定义依赖于三个条件:隐蔽性、良性一致性和对抗性不一致。
- 三种攻击范式在各阶段被识别并给出公式:后门(从预训练到推断)、权重(从后训练部署到推断)、以及对抗样本(推断)。
- 后门攻击通过数据污染和可控训练的变体进行分析,给出数据与触发设计的详细公式(Eq. 2)。
- 权重攻击被形式化为包含参数修改和比特翻转情景,并给出相应的损失项,确保正常的良性行为同时诱导恶意行为(Eq. 3)。
- 推断时的对抗样本被定义为对输入的扰动,导致错误预测,同时保持攻击者的模型不变(Eq. 4)。
- 提供了基于数据污染的后门攻击的全面分类法,涵盖触发生成(可见/不可见、语义/非语义、手动/可学习、数字/物理)以及样本选择和触发融合策略(Section III-B–III-D)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。