QUICK REVIEW

[论文解读] Unrestricted Adversarial Examples

T. B. Brown, Nicholas Carlini|arXiv (Cornell University)|Sep 22, 2018

Adversarial Robustness in Machine Learning参考文献 6被引用 72

一句话总结

本论文提出一个正在进行的双人对抗赛，以评估对不受限对抗输入的鲁棒性，使用一个明确的 bird-or-bicycle 数据集，防御者必须避免自信错误，攻击者利用开放的防御。

ABSTRACT

We introduce a two-player contest for evaluating the safety and robustness of machine learning systems, with a large prize pool. Unlike most prior work in ML robustness, which studies norm-constrained adversaries, we shift our focus to unconstrained adversaries. Defenders submit machine learning models, and try to achieve high accuracy and coverage on non-adversarial data while making no confident mistakes on adversarial inputs. Attackers try to subvert defenses by finding arbitrary unambiguous inputs where the model assigns an incorrect label with high confidence. We propose a simple unambiguous dataset ("bird-or- bicycle") to use as part of this contest. We hope this contest will help to more comprehensively evaluate the worst-case adversarial risk of machine learning models.

研究动机与目标

推动超越范数约束对手的鲁棒性研究。
引入一个明确的 bird-or-bicycle 数据集用于地面真值评估的
用于地面真值评估的明确 bird-or-bicycle 数据集。
设计一个两人对抗赛，防御者在不明确输入上退出或正确标注，攻击者追求自信的错误分类。
提供开源机制，在现实威胁模型中评估和比较防御措施。
通过热身阶段和持续挑战轮，鼓励迭代、可复现的进步。

提出的方法

从 OpenImages 构建一个两类明确的 bird-or-bicycle 数据集，地面真值由多名任务者共同确定。
允许防御模型输出 bird、bicycle，或 abstain，对不明确输入不得有自信错误。
启用不受限制的白盒攻击，攻击可使用任何输入修改，由人工验证的地面真值进行评估。
对私有资格集设定 abstention 机制，要求80% 的准确率，以防止简单放弃。
开展一个持续进行的竞赛，按周提交攻击、人工验证，以及在固定无胜负期（如 90 天）后进行防御方奖品评估。
热身阶段测试固定攻击，以避免在不受限制的竞赛开始前对特定攻击过拟合防御。

实验结果

研究问题

RQ1在不明确的 bird-or-bicycle 图像上，防御者是否能够在对对抗输入有选择性 abstain 的同时实现零自信错误？
RQ2与范数约束攻击相比，不受限制的白盒攻击开放性如何影响防御鲁棒性？
RQ3持续进行的开源防御提交是否经受住随着时间推移的重复攻击者尝试？
RQ4有哪些实际机制能够在不牺牲对干净数据的性能的前提下实现可靠 abstention？

主要发现

作者提出一个持续进行的、完全白盒且攻击不受限制的竞赛，以更好地反映现实世界的鲁棒性挑战。
使用一个明确的 bird-or-bicycle 数据集，通过多名任务者的一致意见来确保地面真值的有效性。
防御者可以 abstain，但必须在私有资格集上保持 80% 的准确性，以防止简单放弃。
攻击通过人工评审验证以确保不含歧义，然后再发放奖品，促进公平评估。
竞赛包括带有固定攻击的热身阶段，以揭示简单防御并在不受限制的轮次前防止过拟合。
提供开源的竞赛机制以及不断演进的防御/攻击，鼓励社区参与。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。