QUICK REVIEW

[論文レビュー] Adversarial Distributional Training for Robust Deep Learning

Yinpeng Dong, Zhijie Deng|arXiv (Cornell University)|Feb 14, 2020

Adversarial Robustness in Machine Learning参考文献 85被引用数 34

ひとこと要約

Adversarial Distributional Training (ADT) を提示する。入力の周りに adversarial distributions を学習するミニマックス枠組みで、未知の攻撃に対する頑健性を向上させる。CIFAR-10/100 および SVHN における三つのパラメータ化と実証テスト。

ABSTRACT

Adversarial training (AT) is among the most effective techniques to improve model robustness by augmenting training data with adversarial examples. However, most existing AT methods adopt a specific attack to craft adversarial examples, leading to the unreliable robustness against other unseen attacks. Besides, a single attack algorithm could be insufficient to explore the space of perturbations. In this paper, we introduce adversarial distributional training (ADT), a novel framework for learning robust models. ADT is formulated as a minimax optimization problem, where the inner maximization aims to learn an adversarial distribution to characterize the potential adversarial examples around a natural one under an entropic regularizer, and the outer minimization aims to train robust models by minimizing the expected loss over the worst-case adversarial distributions. Through a theoretical analysis, we develop a general algorithm for solving ADT, and present three approaches for parameterizing the adversarial distributions, ranging from the typical Gaussian distributions to the flexible implicit ones. Empirical results on several benchmarks validate the effectiveness of ADT compared with the state-of-the-art AT methods.

研究の動機と目的

未知の adversarial attacks beyond single-attack adversarial training に対する頑健性を動機付ける。
摂動を点ではなく分布として扱う分布ミニマックス定式化を導入する。
Delta 分布への崩壊を防ぎ、多様な adversarial examples を奨励する正則化を行う。
敵対的分布の三つの実用的な具体化を提供し、それらが頑健性に与える影響を分析する。

提案手法

ADT を minimax 問題として定式化する: min_theta (1/n) Σ_i max_p(δ_i) E_p[L(f_theta(x_i+δ_i), y_i)].
内部目的関数にエントロピー正則化子を加えて Delta 分布への退化を防ぐ: J(p, theta) = E_p[L(...)] + lambda H(p)。
敵対的分布を三つのアプローチでパラメータ化する: (i) ADT EXP は δ = ε*tanh(u), u~N(μ, diag(σ^2)) の明示的ガウスベース変換を用いる。 (ii) ADT EXP-AM は x を条件として生成器 g_φ によるアモルタイズド分布。 (iii) ADT IMP-AM は潜在変数 z を用いた生成器と変分エントロピー推定による暗黙密度を介した分布。
(空)
一般アルゴリズム（Alg. 1）を Danskin の逐次最適化に基づいて提供する: 内部最大化を解いて p* を得た後、p* に対する J の勾配で theta を更新する。」],
research_questions=[

実験結果

リサーチクエスチョン

RQ11) adversarial perturbation の分布を学習することは、点ごとの adversarial training よりも広範な攻撃範囲に対する頑健性を改善できるか。
RQ22) エントロピ正則化は、学習された adversarial perturbation の多様性と有効性にどのような影響を与えるか。
RQ33) 明示的、アモルタイズド明示的、暗黙的 adversarial distribution の三つのパラメータ化は、頑健性とトレーニング効率の観点でどう比較されるか。
RQ44) ADT 法は標準ベンチマークにおける white-box および black-box 攻撃に対して頑健性を維持しますか？

主な発見

Model	A_nat	FGSM	PGD-20	PGD-100	MIM	C&W	FeaAttack	A_rob
Standard	94.81%	12.05%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
AT FGSM	93.80%	79.86%	0.12%	0.04%	0.06%	0.13%	0.01%	0.01%
AT PGD †	87.25%	56.04%	45.88%	45.33%	47.15%	46.67%	0?	46.01%
AT PGD	86.91%	58.30%	50.03%	49.40%	51.40%	50.23%	0?	50.46%
ALP	86.81%	56.83%	48.97%	48.60%	50.13%	49.10%	0?	48.51%
FeaScatter	89.98%	77.40%	70.85%	68.81%	72.74%	58.46%	37.45%	37.40%
ADT EXP	86.89%	60.41%	52.18%	51.69%	53.27%	52.49%	52.38%	50.56%
ADT EXP-AM	87.82%	62.42%	51.95%	51.26%	52.99%	51.75%	52.04%	50.04%
ADT IMP-AM	88.00%	64.89%	52.28%	51.23%	52.64%	52.65%	51.89%	49.81%

ADT ベースの手法は、標準トレーニングおよび競合する adversarial training と比較して、FGSM、PGD の派生、MIM、C&W、FeaAttack などの白箱攻撃に対して一貫して頑健性を向上させる。
CIFAR-10/10 の白箱攻撃下で、ADT バリアントは多くのベースラインより高い攻撃耐性精度を達成し、EXP-AM および IMP-AM よりも EXP がいくつかの設定で優れることが多い。
ADT ベースの手法はブラックボックス転送および SPSA クエリにおいてより良い頑健性を示し、勾配マスキングの低減と真の頑健性の獲得を示唆する。
エントロピー正則化により adversarial distributions がより広い摂動空間をカバーし、自然入力の周囲での損失景観を滑らかにする。
アモルタイズド系（EXP-AM、IMP-AM）は、同等の頑健性を保ちつつトレーニングを速くする一方、明示的な EXP がいくつかのケースで若干強い防御を示す場合がある。
CIFAR-10、CIFAR-100、SVHN での経験的結果は、ADT が最先端の AT 手法に対して有効であることを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。