[論文レビュー] Guided Diffusion Model for Adversarial Purification
この論文はGDMPを提案する。拡散モデルに基づく敵対的浄化手法で、攻撃を受けた画像を拡散させ、敵対的入力からのガイダンスを用いてノイズを除去し、強力な攻撃下でCIFAR-10とImageNetにおいて顕著な堅牢性精度の向上を達成する。
With wider application of deep neural networks (DNNs) in various algorithms and frameworks, security threats have become one of the concerns. Adversarial attacks disturb DNN-based image classifiers, in which attackers can intentionally add imperceptible adversarial perturbations on input images to fool the classifiers. In this paper, we propose a novel purification approach, referred to as guided diffusion model for purification (GDMP), to help protect classifiers from adversarial attacks. The core of our approach is to embed purification into the diffusion denoising process of a Denoised Diffusion Probabilistic Model (DDPM), so that its diffusion process could submerge the adversarial perturbations with gradually added Gaussian noises, and both of these noises can be simultaneously removed following a guided denoising process. On our comprehensive experiments across various datasets, the proposed GDMP is shown to reduce the perturbations raised by adversarial attacks to a shallow range, thereby significantly improving the correctness of classification. GDMP improves the robust accuracy by 5%, obtaining 90.1% under PGD attack on the CIFAR10 dataset. Moreover, GDMP achieves 70.94% robustness on the challenging ImageNet dataset.
研究の動機と目的
- ターゲット分類器を再学習させることなく、敵対的摂動を緩和して堅牢な画像分類を促進する。
- 拡散を介して摂動を浸透させ、ガイダンス付きのデノイズでクリーンな内容を回復するDDPMベースの浄化手法を導入する。
- 敵対的ノイズを除去しつつ、浄化された出力を敵対的入力に結びつけるガイダンスを通じて画像の意味情報を保持することを可能にする。
- ImageNetを含む大規模データセットへのスケーラビリティを可能にし、強力な適応的攻撃下での堅牢性を評価する。
提案手法
- 事前学習済みDDPMの拡散-denoisingプロセスに敵対的浄化を埋め込み、加えられたガウスノイズで摂動を沈める。
- 攻撃を受けた画像を制御された長さTcで拡散し、摂動を劣化させてから再び元に戻してクリーンに近い画像を回復する。
- 逆過程にガイダンス機構を導入し、出力を敵対的画像に向かって微調整して内容を保持しつつ摂動を除去する。
- 途中のデノイズ状態と拡散された敵対的状態との間の距離指標D(MSEまたはSSIM)を用いたガイダンスを、時刻依存のs_tでスケーリングして formalize する。
- ガウスノイズの大きさに比例し、摂動の大きさに反比例するようにs_tを計算し、浄化強度と内容保持のバランスを取る。
- 拡散モデルを再訓練せずに、スキップステップ技術を用いてDDPMの計算をオプションで高速化する。
実験結果
リサーチクエスチョン
- RQ1ターゲット分類器を再学習させることなく、事前学習済みDDPMを浄化プリプロセッサとして効果的に利用して、分類器を敵対的攻撃から防御できるか。
- RQ2DDPM逆過程で敵対的画像からのガイダンスを取り入れることは、 unguided な浄化と比較して浄化品質と意味的保持を向上させるか。
- RQ3提案手法は大規模データセット(例: ImageNet)で、強力な敵対的攻撃、適応的攻撃を含む場合にどの程度性能を示すか。
- RQ4複数の浄化反復、拡散長さ Tc など、浄化強度と内容忠実度のバランスを取る実用的な戦略は何か。
主な発見
- GDMPはCIFAR-10で堅牢な精度を5%向上させ、PGD攻撃下で90.1%を達成。
- GDMPはPGD様の評価下でImageNetにおいて70.94%の堅牢性を達成。
- 導入されたガイダンス拡散(SSIMまたはMSEガイダンス)は、 unguided な浄化を上回り、特に拡散ステップを大きく取る場合や複数回の反復時に顕著。
- 複数回の浄化反復は、中程度のTcで、単一の大Tc浄化よりも内容を保持しつつ摂動を除去する点で優れる。
- DDPM加速技術は計算時間を大幅に削減可能(例: ImageNetでステップリスケジューリングにより最大4倍速)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。