[论文解读] Are Generative Classifiers More Robust to Adversarial Attacks?
本文提出 Deep Bayes,一种基于变分自编码器建模类条件数据分布的深度生成分类器,并应用贝叶斯推理进行分类。结果表明,与判别式分类器相比,生成式分类器在对抗攻击下更具鲁棒性,尤其当结合基于似然的检测方法以拒绝分布外输入时表现更优。
There is a rising interest in studying the robustness of deep neural network classifiers against adversaries, with both advanced attack and defence techniques being actively developed. However, most recent work focuses on discriminative classifiers, which only model the conditional distribution of the labels given the inputs. In this paper, we propose and investigate the deep Bayes classifier, which improves classical naive Bayes with conditional deep generative models. We further develop detection methods for adversarial examples, which reject inputs with low likelihood under the generative model. Experimental results suggest that deep Bayes classifiers are more robust than deep discriminative classifiers, and that the proposed detection methods are effective against many recently proposed attacks.
研究动机与目标
- 探究生成式分类器(建模给定标签下输入的条件分布)是否比判别式分类器对对抗攻击更具鲁棒性。
- 通过引入深度潜在变量模型(LVM)框架,解决经典生成模型(如朴素贝叶斯)在图像分类任务中表现不佳的问题。
- 基于生成模型下的似然和分类器置信度,开发有效的对抗样本检测机制。
- 评估所提方法在多种 $\epsilon$-有界对抗攻击(包括白盒与黑盒变体)下的鲁棒性。
- 展示将生成式与判别式特征结合在提升深度学习模型鲁棒性方面的实际应用价值。
提出的方法
- 提出 Deep Bayes,一种基于条件深度潜在变量模型(LVM)的深度贝叶斯分类器,通过变分自编码器(VAE)框架建模 $p(\bm{x}|\bm{y})$。
- 采用重要性采样近似贝叶斯推理:$p(\bm{y}|\bm{x}) \propto \mathbb{E}_{q(\bm{z}|\bm{x})}[p(\bm{x}|\bm{y}, \bm{z})p(\bm{y})]$。
- 提出三种对抗检测方法:(1) 基于 $p(\bm{x}|\bm{y}_c)$ 的似然阈值法,(2) 基于 logits 的置信度评分,(3) 基于 KL 散度的拒绝机制。
- 使用重参数化梯度的随机梯度变分贝叶斯(SGVB)训练 VAE,以优化变分下界。
- 融合来自 VGG16 等网络的深度判别特征与 Deep Bayes 模型的生成特征,以增强鲁棒性。
- 应用标准对抗攻击(FGSM、PGD、MIM),并通过 $\ell_\infty$ 误差下的干净样本与对抗样本准确率评估鲁棒性。
实验结果
研究问题
- RQ1生成式分类器是否比判别式分类器更具对抗攻击鲁棒性,尤其是在分布外假设下?
- RQ2具有学习潜在表示的深度生成模型能否在图像分类任务中超越经典生成模型(如朴素贝叶斯)并保持鲁棒性?
- RQ3基于似然和基于置信度的检测方法在识别对抗样本方面的有效性如何?
- RQ4将生成式与判别式特征融合是否能提升对标准基准数据集上强对抗攻击的鲁棒性?
- RQ5在白盒与黑盒攻击设置下,Deep Bayes 的鲁棒性与贝叶斯神经网络及其他防御机制相比如何?
主要发现
- 在 MNIST 上,Deep Bayes 分类器(DBX-128)在 $\ell_\infty$ FGSM 攻击 $\epsilon = 0.5$ 下达到 98.6% 测试准确率,显著优于基线 VGG16。
- 在 CIFAR-10 二分类任务中,融合模型(DBX-128)在 PGD 攻击 $\epsilon = 8/255$ 下达到 98.4% 准确率,超过 VGG16 基线。
- 基于似然的检测方法在 MNIST 上将 $\epsilon = 0.3$ 时的对抗攻击成功率降低至 1% 以下,显示出强大的拒绝能力。
- GBZ-128 和 GBY-128 变体在 MNIST 上对 MIM 攻击 $\epsilon = 0.5$ 的准确率超过 98%,证明其在多种攻击类型下均具鲁棒性。
- 基于输出置信度(TP 边际)的检测方法在 MNIST 上将 FGSM 攻击 $\epsilon = 0.1$ 下的对抗准确率降低至 41.5%,有效识别低置信度对抗输入。
- 在 CIFAR-10 上,融合 VGG16 的判别特征与 Deep Bayes 的生成特征后,PGD 攻击 $\epsilon = 8/255$ 下准确率达到 92.7%,优于基线 VGG16 的 84.8%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。