QUICK REVIEW

[論文レビュー] Adversarial and Clean Data Are Not Twins

Zhitao Gong, Wenlu Wang|arXiv (Cornell University)|Apr 17, 2017

Adversarial Robustness in Machine Learning被引用数 103

ひとこと要約

著者は敵対的な画像とクリーン画像を分離する二値分類器を訓練し、99%以上の精度を達成し、二回目の攻撃にも頑健であることを示すが、epsilon値と攻撃手法を跨ぐ一般化の限界を明らかにする。

ABSTRACT

Adversarial attack has cast a shadow on the massive success of deep neural networks. Despite being almost visually identical to the clean data, the adversarial images can fool deep neural networks into wrong predictions with very high confidence. In this paper, however, we show that we can build a simple binary classifier separating the adversarial apart from the clean data with accuracy over 99%. We also empirically show that the binary classifier is robust to a second-round adversarial attack. In other words, it is difficult to disguise adversarial samples to bypass the binary classifier. Further more, we empirically investigate the generalization limitation which lingers on all current defensive methods, including the binary classifier approach. And we hypothesize that this is the result of intrinsic property of adversarial crafting algorithms.

研究の動機と目的

対象モデルに依存しない前処理として、敵対的な例の堅牢な検出を動機づける。
単純な二値分類器が高精度で敵対的データとクリーンデータを分離できることを示す。
二次的な敵対的試みに対する検出器の頑健性とその一般化の限界を調査する。
敵対的作成手法が検出に与える影響を分析し、敵対的空間の内在的特性について議論する。

提案手法

クリーンデータ上でニューラル分類器 f1 を訓練して、X_train と X_test から X_adv(f1) を生成する。
クリーンと敵対的サンプルを混合したデータセット上で、ラベルをそれぞれ 0 と 1 として二値検出器 f2 を訓練する。
分離性を測定するため、X_test および X_adv(f1)_test に対して f2 を評価する。
f2 によって高度化された二次攻撃データ {X_test, X_adv(f1)_test} をテストして、攻撃者が検出を回避できるかを確かめる。
敵対的手法（FGSM、TGSM、JSMA）とデータセット（MNIST、CIFAR10、SVHN）を横断して検出器の性能を比較する。

実験結果

リサーチクエスチョン

RQ1単純な二値分類器は、一般的なデータセット全体で敵対的な画像とクリーンな画像を信頼性高く区別できるか。
RQ2敵対的検出器は、それを回避するように作られた二次攻撃に対して頑健か。
RQ3異なる epsilon 値や敵対的作成アルゴリズムに直面したとき、検出器に影響する一般化の限界は何か。

主な発見

二値分類器は MNIST、CIFAR10、SVHN を横断して、敵対的データとクリーンデータを分離する精度が 99% を超える。
この二値検出器は二次攻撃に対して頑健で、検出器を認識した攻撃者によって回避されることはない。
検出器の性能は、敵対的データを生成する際に用いられる epsilon のハイパーパラメータと敵対的作成アルゴリズムに敏感である。
FGSM/TGSM と JSMA によって生成された敵対データセットは互換性がない場合があるが、敵対データを混ぜる（例: FGSM と JSMA）ことで両方への一般化が改善される。
対抗的トレーニングや蒸留などの防御的手法も同様の一般化制限を示し、敵対的空間の内在的特性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。