[論文レビュー] Parsimonious Black-Box Adversarial Attacks via Efficient Combinatorial Optimization
本論文は黒箱攻撃に対する離散的で勾配フリーの代替手法を導入し、局所探索と遅延評価を用いてセットマックス化問題を解く。CIFAR-10とImageNetで、クエリ数を大幅に減らしつつ最先端の攻撃性能を達成。
Solving for adversarial examples with projected gradient descent has been demonstrated to be highly effective in fooling the neural network based classifiers. However, in the black-box setting, the attacker is limited only to the query access to the network and solving for a successful adversarial example becomes much more difficult. To this end, recent methods aim at estimating the true gradient signal based on the input queries but at the cost of excessive queries. We propose an efficient discrete surrogate to the optimization problem which does not require estimating the gradient and consequently becomes free of the first order update hyperparameters to tune. Our experiments on Cifar-10 and ImageNet show the state of the art black-box attack performance with significant reduction in the required queries compared to a number of recently proposed methods. The source code is available at https://github.com/snu-mllab/parsimonious-blackbox-attack.
研究の動機と目的
- 勾配が取得不可能なℓ∞制約下での黒箱敵対的攻撃を動機づける。
- 勾配推定を回避するために perturbations を ℓ∞-ボールの頂点に限定する離散代替手法を提案。
- 緩い評価を用いた加速局所探索フレームワークを開発し、摂動位置を効率的に選択。
- 階層ブロック分割を活用して画像構造を利用し、クエリ効率を高める。
- 標準データセット上でクエリ数を削減しつつ最先端の攻撃性能を示す。
提案手法
- F(S)=f(x+ϵ(S)) で V 上の集合最大化として攻撃を定式化。S は摂動を受ける画素、+ϵ は摂動、V\S は摂動を受けない画素 -ϵ。
- この問題は部分的減少性/submodularに近い最大化を近似することを示し、貪欲法/局所探索ベースの解を可能にする。
- 近似境界を持つ近似的部分モジュラF の局所探索(挿入/削除)を導入し、理論的保証を提供(定理1、系 Corollary 1)。
- 遅延評価(Algorithm 1–3)を適用して限界利得計算を高速化し、クエリ数を削減。
- 階層的遅延評価(Algorithm 4–5)を画像ブロック上の最適化に適用。粗く開始し、細かいグリッドへ洗練、クエリ予算下で早期終了。
実験結果
リサーチクエスチョン
- RQ1-discrete で gradient-free surrogate は ℓ∞-ball 内のブラックボックス攻撃 perturbations を効率的に最適化できるか?
- RQ2Approximately submodular 最適化テクニックは、ブラックボックス設定でより少ないクエリで競争力ある、あるいは優れた攻撃性能をもたらすか?
- RQ3階層的・ブロックベースの評価は高解像度画像でのクエリ効率と攻撃成功率にどう影響するか?
- RQ4この文脈での遅延評価の理論的保証と実用的利点は何か?
- RQ5提案手法は CIFAR-10 と ImageNet における無標的・標的設定の最先端ブラックボックス攻撃とどう比較されるか?
主な発見
| Method | Success rate | Avg. queries | Med. queries | Avg. queries (NES success) |
|---|---|---|---|---|
| PGD (white-box) | 47.2% | 20 | - | - |
| NES | 29.5% | 2872 | 900 | 2872 |
| Bandits | 38.6% | 1877 | 459 | 520 |
| Ours | 48.0% | 1261 | 356 | 247 |
| PGD (white-box) | 99.9% | 20 | - | - |
| NES† | 77.8% | 1735 | - | 1735 |
| NES | 80.3% | 1660 | 900 | 1660 |
| Bandits† | 95.4% | 1117 | - | 703 |
| Bandits | 94.9% | 1030 | 286 | 603 |
| Ours | 98.5% | 722 | 237 | 376 |
| PGD (white-box) | 100% | 200 | - | - |
| NES† | 99.2% | - | 11550 | - |
| NES | 99.7% | 16284 | 12650 | 16284 |
| Bandits† | 92.3% | 26421 | 18642 | 26421 |
| Bandits | - | - | - | - |
| Ours | 99.9% | 7485 | 5373 | 7371 |
- CIFAR-10およびImageNet全体で、NESおよびBanditsのベースラインよりも、同等以上の攻撃成功率を大幅に少ないクエリ数で達成。
- CIFAR-10の無標的攻撃で、Ours: 成功率48.0%、平均クエリ数1261、Bandits 38.6%、平均1877。
- ImageNetの無標的攻撃で、Ours: 成功率98.5%、平均クエリ数722、Bandits 95.4%、平均1117。
- ImageNetの標的攻撃で、Ours: 成功率99.9%、平均クエリ数7485、NES 16284、Bandits 26421。
- 手法は一部の CIFAR-10 設定で白箱 PGD の性能に近づきつつ、黒箱の制約を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。