[論文レビュー] Diffusion Models for Adversarial Purification
DiffPure は順方向拡散プロセスと逆拡散プロセスを用いて敵対的画像を浄化し、随伴勾配法による評価を可能にし、CIFAR-10、ImageNet、CelebA-HQ のすべてで最先端の頑健性を達成します。
Adversarial purification refers to a class of defense methods that remove adversarial perturbations using a generative model. These methods do not make assumptions on the form of attack and the classification model, and thus can defend pre-existing classifiers against unseen threats. However, their performance currently falls behind adversarial training methods. In this work, we propose DiffPure that uses diffusion models for adversarial purification: Given an adversarial example, we first diffuse it with a small amount of noise following a forward diffusion process, and then recover the clean image through a reverse generative process. To evaluate our method against strong adaptive attacks in an efficient and scalable way, we propose to use the adjoint method to compute full gradients of the reverse generative process. Extensive experiments on three image datasets including CIFAR-10, ImageNet and CelebA-HQ with three classifier architectures including ResNet, WideResNet and ViT demonstrate that our method achieves the state-of-the-art results, outperforming current adversarial training and adversarial purification methods, often by a large margin. Project page: https://diffpure.github.io.
研究の動機と目的
- 分類器を再訓練せずに未知の攻撃者に対する頑健な防御を動機づける。
- 意味を損なわずに摂動を洗い落とす拡散ベースの敵対的浄化を導入する。
- 拡散ステップ数が浄化と意味のバランスに与える影響について理論的な指針を提供する。
- 強力な適応攻撃に対して随伴法を用いた効率的な勾配計算を可能にする。
- DiffPure が複数のデータセットとアーキテクチャに渡って優れた頑健性を実証的に達成することを示す。
提案手法
- 敵対的画像に少量のノイズを加える順方向拡散ステップを適用する。
- 局所的な摂動を取り除くために t* というタイムステップまで拡散し、ラベルの意味論を保持する。
- デノイジングモデルを用いて t* から 0 までの逆 SDE を解くことで浄化された画像を復元する。
- 随伴法を用いて SDE を通じて勾配を逆伝播し、適応攻撃に対して評価する。
- 拡散タイムステップが浄化と意味論に与える影響について理論的境界を提供する。
- CIFAR-10、ImageNet、CelebA-HQ 上の ResNet、WideResNet、ViT に対して AutoAttack および BPDA+EOT で評価する。
実験結果
リサーチクエスチョン
- RQ1拡散モデルは攻撃の形状や分類器を仮定せずにどのように敵対的摂動を浄化できるか?
- RQ2摂動を除去しつつデータの意味論を保持する最適な拡散タイムステップ t* はどれか?
- RQ3随伴ベースの勾配計算は強力な適応攻撃に対して頑健な評価を可能にするか?
- RQ4拡散ベースの浄化は多様なデータセットとアーキテクチャで最先端の頑健性を達成するか?
- RQ5見えない脅威モデルの下で、DiffPure は敵対的学習や他の浄化法とどう比較されるか?
主な発見
- DiffPure は最先端の頑健性を達成し、CIFAR-10 で AutoAttack ℓ∞ に対する敵対的頑健性を最大で 5.44 ポイント、ImageNet で最大で 7.68 ポイント改善した。
- CIFAR-10 ℓ2 で DiffPure は 78.58% の頑健精度を達成(対比 ~)し、追加データなしのいくつかの設定で他の手法を上回る。
- DiffPure は未知の脅威に対して大きな改善を達成し、競合する未知脅威のベースラインより最大で 36% の頑健精度の向上。
- BPDA+EOT に対して、DiffPure は顕著な頑健精度の向上をもたらす(例:CIFAR-10 で +11.31%、CelebA-HQ で +15.63%)。
- CelebA-HQ および CIFAR-10 において、拡散ベースの浄化は強力な適応攻撃下で標準指標と頑健指標の双方で ND ベースの生成浄化器を上回る。
- アブレーションにより最適な t* は小さく脅威モデルによって変動すること、t* が大きくなると標準精度が低下する一方、頑健精度は中間の t* でピークに達することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。