QUICK REVIEW

[論文レビュー] Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder

Feng Ji, Qi-Zhi Cai|arXiv (Cornell University)|May 22, 2019

Anomaly Detection Techniques and Applications被引用数 26

ひとこと要約

本稿では、学習データに対して人間が認識できないが境界付きの摂動を生成するための新しいフレームワークを提案する。これらの摂動は、推論時における任意の下流分類器の一般化性能を劣化させるように設計されている。微分可能で仮想的な被害者分類器と併せて自己符号化器を訓練することで、多様なモデル（ニューラルネットワーク以外を含む）にわたる一般化性の高い敵対的ノイズを生成する。この手法は、CIFAR-10 や ImageNet などのアーキテクチャやデータセットにおいても高い転送性を達成する。

ABSTRACT

In this work, we consider one challenging training time attack by modifying training data with bounded perturbation, hoping to manipulate the behavior (both targeted or non-targeted) of any corresponding trained classifier during test time when facing clean samples. To achieve this, we proposed to use an auto-encoder-like network to generate the pertubation on the training data paired with one differentiable system acting as the imaginary victim classifier. The perturbation generator will learn to update its weights by watching the training procedure of the imaginary classifier in order to produce the most harmful and imperceivable noise which in turn will lead the lowest generalization power for the victim classifier. This can be formulated into a non-linear equality constrained optimization problem. Unlike GANs, solving such problem is computationally challenging, we then proposed a simple yet effective procedure to decouple the alternating updates for the two networks for stability. The method proposed in this paper can be easily extended to the label specific setting where the attacker can manipulate the predictions of the victim classifiers according to some predefined rules rather than only making wrong predictions. Experiments on various datasets including CIFAR-10 and a reduced version of ImageNet confirmed the effectiveness of the proposed method and empirical results showed that, such bounded perturbation have good transferability regardless of which classifier the victim is actually using on image data.

研究の動機と目的

訓練時における任意の分類器の一般化ギャップを最大化するように、境界付きで人間が認識できない摂動を訓練データに追加する手法を開発すること。
訓練時におけるデータ汚染を通じて、攻撃者が被害者分類器の挙動を制御可能にする（誤分類を引き起こすか、特定のラベル予測を狙う）。
生成された敵対的ノイズが、深層ニューラルネットワーク、ランダムフォレスト、SVM など多様なモデルアーキテクチャにわたって転送可能であることを保証すること。
強化学習の技術にインspiredされた分離最適化手順により、自己符号化器と仮想被害者分類器の訓練を安定化させること。
モデルが特定のラベルに誤分類させるlabel-specificな攻撃にこのフレームワークを拡張すること。

提案手法

自己符号化器に類似したネットワークを訓練し、クリーンな訓練サンプル $ x $ に小さな境界付き摂動 $ g_{\xi}(x) $ を追加することで、敵対的訓練データ $ x + g_{\xi}(x) $ を生成する。
自己符号化器は、微分可能で仮想的な被害者分類器 $ f_{\theta} $ と共同最適化で訓練され、$ f_{\theta} $ がクリーンなテストデータ上でテスト精度を最小化するようにする。
訓練プロセスは非線形等式制約付き最適化問題として定式化され、自己符号化器は被害者分類器の一般化性能を最大限に損なうノイズを学習する。
訓練の安定化のため、強化学習におけるターゲットネットワークに類似した分離メカニズムを導入。自己符号化器の訓練中に被害者分類器を擬似更新することで、発散を防ぐ。
損失関数を変更することで、単に誤りのある予測を狙うのではなく、特定の目的ラベルに誤分類させるようにすることで、label-specificな攻撃にフレームワークを拡張する。
評価は MNIST、CIFAR-10、および縮小版 ImageNet データセットで実施。VGG、ResNet、DenseNet などの多様なアーキテクチャに加え、SVM やランダムフォレストといった非DNNモデルも使用。

実験結果

リサーチクエスチョン

RQ1境界付きで人間が認識できない摂動を訓練データに追加することで、アーキテクチャに依存せずに任意の分類器の一般化性能が著しく劣化するか？
RQ2生成された敵対的ノイズが、SVM やランダムフォレストといった非ニューラルネットワークモデルを含む多様な分類器にどれほど効果的に転送されるか？
RQ3特定の事前に定義されたクラスに誤分類させるlabel-specificな攻撃に、このフレームワークを拡張可能か？
RQ4提案された分離訓練手順により、GANに類似した訓練で一般的に見られる不安定性を回避し、自己符号化器と仮想被害者分類器の最適化が安定化するか？
RQ5モデルが敵対的ノイズに過学習する程度はどの程度か？また、その過学習は深層ニューラルネットワークの線形性と相関するか？

主な発見

自己符号化器が生成する敵対的ノイズにより、非ラベル特化攻撃の際、CIFAR-10 ではテスト精度がほぼランダムレベル（例：0.25±0.04）まで低下し、一般化性能の著しい劣化が確認された。
ランダムフォレストや SVM といった非ニューラルネットワーク分類器に対しても、敵対的データで訓練されたモデルはテスト精度が最低 1.48±0.21 まで低下し、高い転送性を確認した。
ラベル特化設定では、攻撃成功率が 0.00 から 79.7±0.38 に上昇し、特定の誤分類が効果的に実現された。
敵対的データで訓練されたモデルは顕著な一般化ギャップを示し、ノイズ付きデータでは訓練精度が著しく高く、テスト精度は低いことが確認された。これはノイズに過学習していることを示唆する。
ノイズそのもの（すなわち、$ f_{\theta}(g_{\xi}(x)) $）に対して評価したところ、MNIST では 95.15%、ImageNet では 93.00%、CIFAR-10 では 72.98% の精度を達成した。これは、モデルがノイズパターンに過学習していることを裏付けた。
VGG、ResNet、DenseNet など多様なアーキテクチャにおいて、CIFAR-10 および ImageNet で一貫した性能を示し、クリーンな訓練と比較してテスト精度が著しく低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。