[论文解读] On Evaluating Adversarial Robustness
本文提供了评估对抗性样本防御的 方法论指引,强调威胁模型、适应性攻击、可重复性以及避免常见陷阱的结构化评估清单。
Correctly evaluating defenses against adversarial examples has proven to be extremely difficult. Despite the significant amount of recent work attempting to design defenses that withstand adaptive attacks, few have succeeded; most papers that propose defenses are quickly shown to be incorrect. We believe a large contributing factor is the difficulty of performing security evaluations. In this paper, we discuss the methodological foundations, review commonly accepted best practices, and suggest new methods for evaluating defenses to adversarial examples. We hope that both researchers developing defenses as well as readers and reviewers who wish to understand the completeness of an evaluation consider our advice in order to avoid common pitfalls.
研究动机与目标
- 动机:说明为何评估对抗性样本防御对安全性与鲁棒性至关重要。
- 基于现实威胁模型,定义具有原则性的方法论用于防御评估。
- 提供全面、可操作的清单,避免常见评估陷阱。
提出的方法
- 定义威胁模型,包括对手的目标、能力和知识,以指导评估。
- 在所述威胁模型下进行自适应对手和端到端防御测试。
- 建议可重复性研究做法,包括发布代码和预训练模型。
- 提供一个结构化的评估清单,审计防御时常见的严重缺陷和陷阱。
- 建议优先使用强大、适应性强且多样化的攻击来真正测试防御。
实验结果
研究问题
- RQ1什么构成对抗鲁棒性评估的严格威胁模型?
- RQ2在现实条件下如何对适应性对手测试防御以确保鲁棒性主张成立?
- RQ3应在防御评估中遵循哪些最佳实践和可重复性标准?
- RQ4哪些常见评估缺陷最容易削弱鲁棒性主张,如何加以避免?
主要发现
- 针对防御定制的自适应攻击对验证鲁棒性主张至关重要。
- 白盒评估应假设防御者具备完全知识;保密性削弱可证伪性。
- 发布源代码和预训练模型大大提升评估的可靠性。
- 一个结构化、动态更新的评估清单有助于识别并防止防御评估中的常见缺陷。
- 评估应同时报告干净准确率和攻击下的鲁棒性,包括多样化的攻击策略和超参数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。