QUICK REVIEW

[论文解读] Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder

Feng Ji, Qi-Zhi Cai|arXiv (Cornell University)|May 22, 2019

Anomaly Detection Techniques and Applications被引用 26

一句话总结

本文提出了一种新颖的框架，利用自编码器生成不可察觉的、有界的扰动以用于训练数据，这些扰动旨在在推理过程中降低任何下游分类器的泛化性能。通过与可微分的、虚构的受害者分类器联合训练自编码器，该方法生成的对抗性噪声可在多种模型（包括非神经网络）之间实现泛化，并在CIFAR-10和ImageNet等数据集上实现高迁移性。

ABSTRACT

In this work, we consider one challenging training time attack by modifying training data with bounded perturbation, hoping to manipulate the behavior (both targeted or non-targeted) of any corresponding trained classifier during test time when facing clean samples. To achieve this, we proposed to use an auto-encoder-like network to generate the pertubation on the training data paired with one differentiable system acting as the imaginary victim classifier. The perturbation generator will learn to update its weights by watching the training procedure of the imaginary classifier in order to produce the most harmful and imperceivable noise which in turn will lead the lowest generalization power for the victim classifier. This can be formulated into a non-linear equality constrained optimization problem. Unlike GANs, solving such problem is computationally challenging, we then proposed a simple yet effective procedure to decouple the alternating updates for the two networks for stability. The method proposed in this paper can be easily extended to the label specific setting where the attacker can manipulate the predictions of the victim classifiers according to some predefined rules rather than only making wrong predictions. Experiments on various datasets including CIFAR-10 and a reduced version of ImageNet confirmed the effectiveness of the proposed method and empirical results showed that, such bounded perturbation have good transferability regardless of which classifier the victim is actually using on image data.

研究动机与目标

开发一种方法，通过在训练数据中添加有界且不可察觉的扰动，以最大化任何训练后分类器在测试时的泛化差距。
通过训练时的数据中毒攻击，使攻击者能够控制受害者分类器的行为——例如导致误分类，或针对特定标签预测。
确保生成的对抗性噪声在包括深度神经网络、随机森林和SVM在内的多种模型架构之间具有可迁移性。
通过受强化学习技术启发的解耦优化过程，稳定自编码器和虚构受害者分类器的训练。
将框架扩展至标签特定攻击，使模型被迫将输入误分类为预定义的目标类别。

提出的方法

训练一个类似自编码器的网络，以生成小幅度、有界的扰动 $ g_{\xi}(x) $，将其添加到干净的训练样本 $ x $ 上，形成对抗性训练数据 $ x + g_{\xi}(x) $。
自编码器与一个可微分的虚构受害者分类器 $ f_{\theta} $ 采用联合优化方案进行训练，目标是最小化 $ f_{\theta} $ 在干净测试数据上的测试准确率。
将训练过程建模为非线性等式约束优化问题，使自编码器学习生成能最大程度损害受害者泛化能力的噪声。
为稳定训练，引入一种解耦机制——类似于强化学习中的目标网络——在自编码器训练期间对受害者分类器进行伪更新，以防止发散。
通过修改损失函数，使框架可扩展至标签特定攻击，即鼓励模型将样本误分类为特定目标类别，而非仅任意错误预测。
在MNIST、CIFAR-10和一个简化版ImageNet数据集上评估该方法，使用多种架构（包括VGG、ResNet和DenseNet）以及非DNN模型（如SVM和随机森林）。

实验结果

研究问题

RQ1添加到训练数据中的有界、不可察觉的扰动是否能显著降低任何架构的分类器在测试时的泛化性能？
RQ2所生成的对抗性噪声在不同类型分类器（包括SVM和随机森林等非神经网络模型）之间的迁移效果如何？
RQ3该框架能否扩展为执行目标导向的标签特定攻击，即迫使分类器将输入误分类为特定预定义类别？
RQ4所提出的解耦训练过程是否能稳定自编码器和虚构受害者分类器的优化，避免类似GAN训练中常见的不稳定性？
RQ5模型在对抗性噪声上的过拟合程度如何？这种过拟合是否与深度神经网络的线性程度相关？

主要发现

在CIFAR-10上，使用非标签特定攻击时，自编码器生成的对抗性噪声使测试准确率降至接近随机水平（例如，0.25±0.04），表明泛化性能显著下降。
即使在非神经网络分类器（如随机森林和SVM）上测试，基于对抗性数据训练的模型测试准确率最低降至1.48±0.21，证实了其高度可迁移性。
在标签特定设置中，攻击成功率从0.00提升至79.7±0.38，表明该方法在目标误分类方面具有显著有效性。
在对抗性数据上训练的模型表现出显著的泛化差距，其在噪声数据上的训练准确率远高于测试准确率，表明对噪声存在过拟合。
当单独评估噪声本身（即 $ f_{\theta}(g_{\xi}(x)) $）时，分类器在MNIST上达到95.15%的准确率，在ImageNet上达到93.00%，在CIFAR-10上达到72.98%，证实模型对噪声模式存在过拟合。
该方法在CIFAR-10和ImageNet上对多种架构（VGG、ResNet、DenseNet）均表现出一致性能，测试准确率相比干净训练显著下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。