[論文レビュー] Improving Black-box Adversarial Attacks with a Transfer-based Prior
本論文はP-RGFを提案する。P-RGFは転移に基づく surrogate gradient とクエリフィードバックを組み合わせ、よりクエリ効率の良いブラックボックス対向攻撃を構築する前提推定法である。最適な結合係数を導出して surrogate gradient を重み付けし、モデルと防御を跨いで攻撃成功率が向上し、クエリ回数が少なくなることを示す。
We consider the black-box adversarial setting, where the adversary has to generate adversarial perturbations without access to the target models to compute gradients. Previous methods tried to approximate the gradient either by using a transfer gradient of a surrogate white-box model, or based on the query feedback. However, these methods often suffer from low attack success rates or poor query efficiency since it is non-trivial to estimate the gradient in a high-dimensional space with limited information. To address these problems, we propose a prior-guided random gradient-free (P-RGF) method to improve black-box adversarial attacks, which takes the advantage of a transfer-based prior and the query information simultaneously. The transfer-based prior given by the gradient of a surrogate model is appropriately integrated into our algorithm by an optimal coefficient derived by a theoretical analysis. Extensive experiments demonstrate that our method requires much fewer queries to attack black-box models with higher success rates compared with the alternative state-of-the-art methods.
研究の動機と目的
- ブラックボックス対向攻撃の非効率性を動機づけ、情報が限られた勾配推定を扱う。
- surrogate white-boxモデルからの転移ベースの事前知識を活用して勾配推定を改善する。
- 転移勾配とランダム勾配推定を融合する最適な係数を導出する。
- 事前知識とクエリフィードバックを組み合わせることで攻撃成功率とクエリ回数を改善する。
- ImageNet上で通常のモデルと防御モデルの両方に対して頑健性を示す。
提案手法
- prior-guided random gradient-free (P-RGF) を提案し、 surrogate モデルからの転移勾配へランダム勾配方向をバイアス付けする。
- 勾配推定損失を真の勾配とスケール推定量との間の最小二乗距離としてモデル化し、スケール b を最適化する。
- サンプリング分布 C = λ v v^T + ((1−λ)/(D−1))(I−v v^T) において転移勾配 v を重み付ける最適混合パラメータ λ* を導出する。
- 転移勾配と真の勾配のコサイン類似度 α とクエリ予算 q(および次元 D)に依存する λ* の閉形式解を提供する。
- 実際的な α の推定手順(有限差分法による)と、q 回のクエリに対して biased なランダム方向 u_i をサンプルする手順を提示する。
- P-RGF をデータ依存事前知識を含むよう拡張し、部分空間射影 V を統合して対応する λ* を導出する(A^2 を射影勾配パワーとする)。
- ImageNet で Inception-v3 サ surrogate を用いた ℓ2 攻撃で、NES、Bandits、AutoZoom、および標準の RGF と比較してアプローチを示す。
実験結果
リサーチクエスチョン
- RQ1転移ベースの事前知識を最適に重み付けすればブラックボックス攻撃における勾配推定を改善できるのか?
- RQ2 surrogate ガイダンスとランダム探索をどのようにバランスさせる最適な結合係数 λ* を計算するか?
- RQ3データ依存の事前知識を組み合わせることでクエリ回数をさらに削減しつつ高い攻撃成功率を維持できるか?
- RQ4P-RGF の利得は多様なターゲットモデルと防御機構に対して一貫して見られるか?
主な発見
| 手法 | Inception-v3 ASR | Inception-v3 AVG. Q | VGG-16 ASR | VGG-16 AVG. Q | ResNet-50 ASR | ResNet-50 AVG. Q |
|---|---|---|---|---|---|---|
| NES | 95.5% | 1718 | 98.7% | 1081 | 98.4% | 969 |
| Bandits T | 92.4% | 1560 | 94.0% | 584 | 96.2% | 1076 |
| Bandits TD | 97.2% | 874 | 94.9% | 278 | 96.8% | 512 |
| AutoZoom | 85.4% | 2443 | 96.2% | 1589 | 94.8% | 2065 |
| RGF | 97.7% | 1309 | 99.8% | 749 | 99.6% | 673 |
| P-RGF (λ=0.5) | 96.5% | 1119 | 97.8% | 710 | 98.7% | 635 |
| P-RGF (λ=0.05) | 97.8% | 1021 | 99.7% | 624 | 99.3% | 511 |
| P-RGF (λ*) | 98.1% | 745 | 99.6% | 331 | 99.6% | 265 |
| RGF D | 99.1% | 910 | 100.0% | 372 | 99.7% | 429 |
| P-RGF D (λ=0.5) | 98.2% | 1047 | 99.7% | 634 | 99.5% | 552 |
| P-RGF D (λ=0.05) | 99.1% | 754 | 99.9% | 359 | 99.8% | 379 |
| P-RGF D (λ*) | 99.1% | 649 | 99.8% | 250 | 99.6% | 232 |
- P-RGF は Inception-v3、VGG-16、ResNet-50 に対する ℓ2 攻撃で従来手法より高い攻撃成功率を達成し、クエリ回数を削減した。
- 最適な λ* はコサイン類似度 α が高いほど増加し、クエリ q が多いほど減少することを示し、転移事前知識への依存度を示す。
- 適応的な λ* の使用は固定された λ 値より優れており、純粋な転移勾配推定や均一なランダム勾配推定よりも優位である。
- データ依存の事前知識(D)を転移事前知識と直交させて取り入れると性能がさらに向上し、平均クエリ回数の追加的な削減を達成する。
- JPEG 圧縮、ランダム化、ガイド付きデノイジング等の防御を跨いでも、P-RGF(データ事前知識の有無を問わず) はベースラインより高い ASR と低いクエリ回数を得られる。
- この手法は勾配推定の効率性が高く、適応的な surrogate 勾配へのバイアス付けは最適化の初期段階で最も有用であり、後半にも勾配推定の改善として有効であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。