QUICK REVIEW

[论文解读] Improving Adversarial Robustness via Promoting Ensemble Diversity

Tianyu Pang, Kun Xu|arXiv (Cornell University)|Jan 25, 2019

Adversarial Robustness in Machine Learning被引用 191

一句话总结

本文提出一种自适应多样性促进（ADP）正则化项，通过促进非最大预测之间的多样性来训练集成，提高对对抗攻击的鲁棒性，同时在正常数据上保持准确性。

ABSTRACT

Though deep neural networks have achieved significant progress on various tasks, often enhanced by model ensemble, existing high-performance models can be vulnerable to adversarial attacks. Many efforts have been devoted to enhancing the robustness of individual networks and then constructing a straightforward ensemble, e.g., by directly averaging the outputs, which ignores the interaction among networks. This paper presents a new method that explores the interaction among individual networks to improve robustness for ensemble models. Technically, we define a new notion of ensemble diversity in the adversarial setting as the diversity among non-maximal predictions of individual members, and present an adaptive diversity promoting (ADP) regularizer to encourage the diversity, which leads to globally better robustness for the ensemble by making adversarial examples difficult to transfer among individual members. Our method is computationally efficient and compatible with the defense methods acting on individual networks. Empirical results on various datasets verify that our method can improve adversarial robustness while maintaining state-of-the-art accuracy on normal examples.

研究动机与目标

在对抗性设置之外，动机化对集成模型的鲁棒性挑战，超越单网络防御。
定义一种适用于对抗性设置（非最大预测）的新的集成多样性度量。
开发自适应多样性促进（ADP）正则化项，结合集成熵和多样性项。
证明 ADP 训练在计算高效并可与现有防御兼容的前提下获得更强的集成鲁棒性。

提出的方法

将集成多样性定义为跨成员归一化非最大预测的 Gram 矩阵的行列式。
引入具有两项的 ADP 正则化项：集成熵和多样性的对数行列式（LED）。
以扩展目标函数将集成交叉熵（ECE）损失与 ADP 正则化项结合，联合训练所有集成成员。
提供理论分析，说明超参数 alpha（熵）和 beta（LED）如何影响最优解。
通过在 MNIST、CIFAR-10 和 CIFAR-100 上的实验，展示与对抗性攻击和其他防御的兼容性。

实验结果

研究问题

RQ1在一个集成中促进非最大预测之间的多样性是否能降低对抗样例在集成成员之间的转移性？
RQ2ADP 正则化项应如何设计以在提升鲁棒性的同时不损害干净数据上的准确性？
RQ3集成熵和 LED 项在塑造最优预测中起到理论上的作用是什么？
RQ4ADP 方法在可扩展性和与对单独网络执行的防御兼容性方面表现如何？
RQ5在标准基准测试下，ADP 在常见白盒对抗攻击下的表现如何？

主要发现

ADP 训练在 MNIST、CIFAR-10、CIFAR-100 上对一系列攻击（FGSM、BIM、PGD、MIM、JSMA、C&W、EAD）的集成鲁棒性显著提升。
在正常样本上的集成准确性得到维持或提升，而个体网络相对于基线的错误率可能更高。
非最大预测变得更加多样化，且从直观上看，集成成员之间的特征分布也出现分化（如 t-SNE 显示）。
ADP 保持计算效率高（K 增大时约慢10%）并且可以作为对抗训练的正交防御。
仅 LED 组件在没有集成熵项时无法正则化，凸显两者共同对有效优化的必要性。
推论表明当 (L−1) 能被 K 整除时，非最大预测可以相互正交，从而形成结构化的多样性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。