QUICK REVIEW

[论文解读] To be Robust or to be Fair: Towards Fairness in Adversarial Training

Han Xu, Liu, Xiaorui|arXiv (Cornell University)|Oct 13, 2020

Adversarial Robustness in Machine Learning参考文献 33被引用 23

一句话总结

本文揭示了对抗训练中的关键公平性问题：即使在数据集平衡的情况下，模型在标准准确率和鲁棒性方面仍表现出严重的类别间差异。为解决此问题，作者提出了公平鲁棒学习（Fair Robust Learning, FRL），一种动态去偏框架，通过重新加权边界误差并重新映射扰动边界，显著提升了最差类别鲁棒性，同时不损害整体性能。

ABSTRACT

Adversarial training algorithms have been proved to be reliable to improve machine learning models' robustness against adversarial examples. However, we find that adversarial training algorithms tend to introduce severe disparity of accuracy and robustness between different groups of data. For instance, a PGD adversarially trained ResNet18 model on CIFAR-10 has 93% clean accuracy and 67% PGD l-infty-8 robust accuracy on the class "automobile" but only 65% and 17% on the class "cat". This phenomenon happens in balanced datasets and does not exist in naturally trained models when only using clean samples. In this work, we empirically and theoretically show that this phenomenon can happen under general adversarial training algorithms which minimize DNN models' robust errors. Motivated by these findings, we propose a Fair-Robust-Learning (FRL) framework to mitigate this unfairness problem when doing adversarial defenses. Experimental results validate the effectiveness of FRL.

研究动机与目标

探究为何对抗训练即使在数据集平衡的情况下，仍会在不同类别间引入显著的准确率与鲁棒性差异。
理解该公平性问题的根本原因，将其与数据不平衡或模型容量问题区分开来。
提出一种新颖的框架——公平鲁棒学习（Fair Robust Learning, FRL），以缓解对抗训练中类别间的鲁棒性差异。
在多个数据集、模型和对抗训练方法上验证FRL的有效性。

提出的方法

提出一种公平鲁棒学习（FRL）框架，在对抗训练过程中动态重新加权各类别的边界误差。
引入一种重映射策略，通过增加表现较差类别的扰动边界，提升其鲁棒性。
采用一种重加权机制，为边界误差较高的类别分配更高的损失权重，促使模型关注困难类别。
使用一种最小-最大优化目标，联合最小化标准误差与鲁棒误差，并通过类别特定的加权策略实现公平性。
实现FRL的两种变体：FRL（重加权）与FRL（重映射），后者在均衡鲁棒性方面表现更优。
开展广泛的消融实验，分析重加权与边界重映射对类别性能的影响。

实验结果

研究问题

RQ1为何对抗训练算法即使在数据集平衡的情况下，仍会在不同类别间导致标准准确率与鲁棒性的显著差异？
RQ2对抗训练中何种潜在机制导致模型偏好较易类别，而使较难类别的性能下降？
RQ3能否通过动态重加权类别特定误差来缓解对抗训练中的公平性问题？
RQ4不同的缓解策略（如重加权边界误差与增大扰动边界）如何影响各类别间鲁棒性的平衡？
RQ5所提出的FRL框架在不降低整体模型性能的前提下，能在多大程度上提升最差类别的鲁棒性？

主要发现

在CIFAR-10上使用PGD进行对抗训练时，'automobile'类的鲁棒准确率为67%，而'cat'类仅为17%，尽管类别是平衡的。
PGD对抗训练模型在'cat'图像上的标准误差为32.8%，鲁棒误差高达82.4%，远超平均值15.5%和56.4%。
FRL（Remap）将'cat'图像的最差类别鲁棒误差从82.4%降低至57.6%，显著提升了公平性。
仅通过重加权无法提升鲁棒性，因为其虽降低边界误差，却增加了标准误差，表明存在权衡。
通过重映射扰动边界能有效降低边界误差，同时不增加标准误差，因此比重加权更有效。
FRL框架在CIFAR-10、SVHN和Tiny ImageNet等多个数据集和模型上，实现了对抗鲁棒性方面的最先进公平性表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。