[論文レビュー] Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples
この論文は 隠蔽勾配を勾配マスキングとして定義し、それに基づく防御を回避する攻撃を開発し、多くの ICLR 2018 の非認証防御が脆弱であることを実証している。
We identify obfuscated gradients, a kind of gradient masking, as a phenomenon that leads to a false sense of security in defenses against adversarial examples. While defenses that cause obfuscated gradients appear to defeat iterative optimization-based attacks, we find defenses relying on this effect can be circumvented. We describe characteristic behaviors of defenses exhibiting the effect, and for each of the three types of obfuscated gradients we discover, we develop attack techniques to overcome it. In a case study, examining non-certified white-box-secure defenses at ICLR 2018, we find obfuscated gradients are a common occurrence, with 7 of 9 defenses relying on obfuscated gradients. Our new attacks successfully circumvent 6 completely, and 1 partially, in the original threat model each paper considers.
研究の動機と目的
- 隠蔽勾配を、敵対的事例に対する頑健性を偽って示唆する勾配マスキングの一形態として特定する。
- 3種類の隠蔽勾配を特徴づけ、それぞれのタイプを克服する攻撃を開発する。
- ICLR 2018 の非認証防御における隠蔽勾配の蔓延を評価し、回避を実証する。
- 防御を評価する研究者のための再現可能なベースラインと攻撃実装を提供する。
- 防御を評価する際の指針と、一般的な評価の落とし穴を避ける方法を提供する。
提案手法
- 隠蔽勾配と3つのタイプを定義する:砕けた(shattered)、確率的(stochastic)、消失/発散する勾配。
- 攻撃を開発する:非微分可能な構成要素には BPDA;ランダム化された防御には Transformation に対する期待値(EOT);勾配の問題に対処するための再パラメータ化。
- 防御を攻撃するために BPDA、EOT、および再パラメータ化を用いて回避を実証する。
- ICLR 2018 の非認証防御のケーススタディを実施し、隠蔽勾配への依存を評価する。
- 再実装された防御と攻撃を公開して再現性を確保する。
実験結果
リサーチクエスチョン
- RQ1ホワイトボックスの頑健性を謳う防御は、隠蔽勾配に依存しているのか?
- RQ2さまざまな防御タイプにまたがる勾配マスキングを克服する攻撃を設計できるか?
- RQ3現実の防御(たとえば ICLR 2018 のもの)の隠蔽勾配の蔓延はどの程度か?
- RQ4提案された攻撃は、元の脅威モデルの下でこれらの防御を完全に回避することができるか、部分的に回避することができるか?
主な発見
| 防御 | データセット | 距離 | 精度 |
|---|---|---|---|
| Buckman et al. (2018) | CIFAR | 0.031 (L_infty) | 0%* |
| Ma et al. (2018) | CIFAR | 0.031 (L_infty) | 5% |
| Guo et al. (2018) | ImageNet | 0.005 (L_2) | 0%* |
| Dhillon et al. (2018) | CIFAR | 0.031 (L_infty) | 0% |
| Xie et al. (2018) | ImageNet | 0.031 (L_infty) | 0%* |
| Song et al. (2018) | CIFAR | 0.031 (L_infty) | 9%* |
| Samangouei et al. (2018) | MNIST | 0.005 (L_2) | 55%** |
| Madry et al. (2018) | CIFAR | 0.031 (L_infty) | 47% |
| Na et al. (2018) | CIFAR | 0.015 (L_infty) | 15% |
- ICLR 2018 の非認証防御のうち9件中7件が隠蔽勾配に依存している。
- 我々の攻撃は、元の脅威モデルの下で6件の防御を完全に回避し、1件を部分的に回避した。
- BPDA、EOT、再パラメータ化は、砕けた、確率的、消失/発散する勾配に効果的に対処する。
- 入力変換、温度計エンコーディング、ランダム化された活性化剪定、および PixelCNN ベースの浄化は、我々の攻撃に対して脆弱である。
- 防御は adversarial training を組み合わせても、我々の適応攻撃に対して必ずしも免疫を保証しない。
- 本研究は防御を評価するためのベースラインを提供し、一般的な評価の落とし穴を浮き彫りにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。