QUICK REVIEW

[論文レビュー] Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|Feb 1, 2018

Adversarial Robustness in Machine Learning参考文献 34被引用数 1,165

ひとこと要約

論文は obfuscated gradients を定義し、3つのタイプを分類し、勾配マスキングに依存する防御を回避する攻撃手法を提示し、それらを ICLR 2018 の非認定防御で評価している。

ABSTRACT

We identify obfuscated gradients, a kind of gradient masking, as a phenomenon that leads to a false sense of security in defenses against adversarial examples. While defenses that cause obfuscated gradients appear to defeat iterative optimization-based attacks, we find defenses relying on this effect can be circumvented. We describe characteristic behaviors of defenses exhibiting the effect, and for each of the three types of obfuscated gradients we discover, we develop attack techniques to overcome it. In a case study, examining non-certified white-box-secure defenses at ICLR 2018, we find obfuscated gradients are a common occurrence, with 7 of 9 defenses relying on obfuscated gradients. Our new attacks successfully circumvent 6 completely, and 1 partially, in the original threat model each paper considers.

研究の動機と目的

敵対的事例に対する防御における false robustness の原因として隠蔽勾配を特定する。
隠蔽勾配の3つのタイプを特徴づけ、それらを克服する攻撃を開発する。
ICLR 2018 の防御のセットを実証的に評価し、蔓延度と回避の成功を測定する。
防御の信頼性ある評価のための再現可能なベースラインと攻撃実装を提供する。

提案手法

隠蔽勾配と3つに分類されるタイプ： shattered、stochastic、vanishing/exploding 勾配を定義する。
復元不可または有用でない微分可能性を持つ層を通じた勾配を近似する Backward Pass Differentiable Approximation (BPDA) を開発する。
期待値をとる変換（Expectation Over Transformation, EOT）を用いてランダム化された防御を通じた勾配を計算する。
爆発/消失勾配を回避するために再パラメータ化を適用する。
EOT と BPDA を用いて勾配を推定し、ランダム化防御を攻撃する。
防御と攻撃を再現して、再現性と評価上の落とし穴を評価する。

実験結果

リサーチクエスチョン

RQ1防御は iterative 攻撃に対して頑健であるように見せるために隠蔽勾配に依存していることが多いのか。
RQ2新しい攻撃技術（BPDA、EOT、再パラメータ化）は元の脅威モデルの下でこれらの防御を回避できるのか。
RQ3ICLR 2018 など、現代の防御における隠蔽勾配の蔓延度はどの程度か。
RQ4研究者は、 adversarial robustness を正直かつ再現可能に評価するためにどのような最良の実践を採用すべきか。

主な発見

防御	データセット	距離	精度
Buckman et al. (2018)	CIFAR	0.031 ( ∞ )	0%*
Ma et al. (2018)	CIFAR	0.031 ( ∞ )	5%
Guo et al. (2018)	ImageNet	0.005 ( 2 )	0%*
Dhillon et al. (2018)	CIFAR	0.031 ( ∞ )	0%
Xie et al. (2018)	ImageNet	0.031 ( ∞ )	0%*
Song et al. (2018)	CIFAR	0.031 ( ∞ )	9%*
Samangouei et al. (2018)	MNIST	0.005 ( 2 )	55%**
Madry et al. (2018)	CIFAR	0.031 ( ∞ )	47%
Na et al. (2018)	CIFAR	0.015 ( ∞ )	15%

隠蔽勾配は一般的である：9 個中 7 個の ICLR 2018 防御は勾配マスキングに依存している。
提案された攻撃は 6 件の防御を完全に回避し、1 件をその脅威モデル下で部分的に回避した。
BPDA、EOT、再パラメータ化は、微分不可能・ランダム化・深いアンローリング防御に対して実際に敵対的例を生成するのに効果的である。
敵対的訓練は特定の隠蔽勾配防御に対して依然として脆弱であり、多くの評価は現実的な脅威モデルを欠いている。
著者らは防御と攻撃の再現可能な再実装を提供し、信頼性の高い評価を促進している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。