QUICK REVIEW

[論文レビュー] Are Generative Classifiers More Robust to Adversarial Attacks?

Yingzhen Li, Bradshaw, John|arXiv (Cornell University)|Feb 19, 2018

Adversarial Robustness in Machine Learning参考文献 57被引用数 26

ひとこと要約

この論文では、変分オートエンコーダーを用いてクラス条件付きデータ分布をモデル化し、分類にベイズ推論を適用する深層生成分類器であるDeep Bayesを提案する。生成分類器が、特に多様体外の入力を拒否する尤度ベースの検出手法と組み合わせた場合、識別分類器よりも adversarial 攻撃に対してより頑健であることを示している。

ABSTRACT

There is a rising interest in studying the robustness of deep neural network classifiers against adversaries, with both advanced attack and defence techniques being actively developed. However, most recent work focuses on discriminative classifiers, which only model the conditional distribution of the labels given the inputs. In this paper, we propose and investigate the deep Bayes classifier, which improves classical naive Bayes with conditional deep generative models. We further develop detection methods for adversarial examples, which reject inputs with low likelihood under the generative model. Experimental results suggest that deep Bayes classifiers are more robust than deep discriminative classifiers, and that the proposed detection methods are effective against many recently proposed attacks.

研究の動機と目的

生成分類器（ラベルを条件とした入力の条件付き分布をモデル化するもの）が、識別分類器よりも adversarial 攻撃に対してより頑健であるかどうかを調査すること。
画像分類タスクにおける古典的生成モデル（例：ナイーブベイズ）の性能が低い問題に対処するため、深層潜在変数モデル（LVM）フレームワークを導入すること。
生成モデルの尤度と分類器の信頼度に基づいた、 adversarial 例を効果的に検出するメカニズムを開発すること。
複数の $\epsilon$-有界 adversarial 攻撃（白ボックスおよびブラックボックスの両方を含む）に対して、提案手法の頑健性を評価すること。
生成分類器と識別分類器の特徴を組み合わせることで、深層学習モデルにおける頑健性が向上することを実用的に示すこと。

提案手法

条件付き深層潜在変数モデル（LVM）を用いて $p(\bm{x}|\bm{y})$ をモデリングする、変分オートエンコーダー（VAE）フレームワークに基づく深層ベイズ分類器（Deep Bayes）を提案する。
推論のためにベイズの定理の近似として重要度サンプリングを用いる：$p(\bm{y}|\bm{x}) \propto \mathbb{E}_{q(\bm{z}|\bm{x})}[p(\bm{x}|\bm{y}, \bm{z})p(\bm{y})]$。
adversarial 検出のための3つの手法を導入：(1) $p(\bm{x}|\bm{y}_c)$ に基づく尤度のしきい値処理、(2) ロジットに基づく信頼度スコア、(3) KLダイバージェンスに基づく拒否。
再パrameterization勾配を用いて、確率的勾配変分ベイズ（SGVB）によりVAEを訓練し、変分下界を最適化する。
VGG16などの深層識別特徴と、Deep Bayesモデルからの生成特徴を統合することで、頑健性を向上させる。
標準的な adversarial 攻撃（FGSM、PGD、MIM）を適用し、$\ell_\infty$ パラメータの摂動下でのクリーンな入力と adversarial 入力の精度を評価する。

実験結果

リサーチクエスチョン

RQ1生成分類器は、特に多様体外仮説の下で、識別分類器よりも adversarial 攻撃に対してより頑健であるか？
RQ2学習された潜在表現を有する深層生成モデルは、古典的生成モデル（例：ナイーブベイズ）を上回る性能を達成できるか、かつ画像分類タスクにおいても頑健性を維持できるか？
RQ3尤度ベースおよび信頼度ベースの検出手法は、 adversarial 例の同定にどの程度効果的か？
RQ4生成特徴と識別特徴を統合することで、標準ベンチマークにおける強力な adversarial 攻撃に対して、頑健性が向上するか？
RQ5白ボックスおよびブラックボックス攻撃設定下で、Deep Bayesの頑健性はベイジアンニューラルネットワークや他の防御手法と比較してどうか？

主な発見

MNISTでは、Deep Bayes分類器（DBX-128）が $\ell_\infty$ FGSM攻撃（$\epsilon = 0.5$）下でも98.6％のテスト精度を達成し、ベースラインのVGG16を顕著に上回った。
CIFAR-10の二値分類タスクでは、統合モデル（DBX-128）がPGD攻撃（$\epsilon = 8/255$）下でも98.4％の精度を達成し、VGG16ベースラインを上回った。
尤度ベースの検出手法により、MNISTにおける $\epsilon = 0.3$ 時に adversarial 成功率が1％未満に低下し、優れた拒否能力を示した。
GBZ-128およびGBY-128の変種は、MNISTでMIM攻撃（$\epsilon = 0.5$）下でも98％以上の精度を達成し、多様な攻撃タイプに対して頑健であることを示した。
出力信頼度（TP marginal）に基づく提案検出手法により、MNISTでFGSM（$\epsilon = 0.1$）下での adversarial 精度が41.5％に低下し、低信頼度の adversarial 入力を効果的に同定できることを示した。
VGG16の識別特徴とDeep Bayesの生成特徴を統合することで、CIFAR-10におけるPGD攻撃（$\epsilon = 8/255$）下での精度が84.8％のベースラインから92.7％に向上し、頑健性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。