[論文レビュー] Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation
本論文は Reverse Adversarial Perturbation (RAP) を導入する。これは平坦な損失領域で敵対的例を探索する min–max の二重最適化攻撃で、モデル間の転移可能性を高めることを目的とする。さらに RAP-LS(late-start)を導入して、効率と有効性をさらに向上させる。
Deep neural networks (DNNs) have been shown to be vulnerable to adversarial examples, which can produce erroneous predictions by injecting imperceptible perturbations. In this work, we study the transferability of adversarial examples, which is significant due to its threat to real-world applications where model architecture or parameters are usually unknown. Many existing works reveal that the adversarial examples are likely to overfit the surrogate model that they are generated from, limiting its transfer attack performance against different target models. To mitigate the overfitting of the surrogate model, we propose a novel attack method, dubbed reverse adversarial perturbation (RAP). Specifically, instead of minimizing the loss of a single adversarial point, we advocate seeking adversarial example located at a region with unified low loss value, by injecting the worst-case perturbation (the reverse adversarial perturbation) for each step of the optimization procedure. The adversarial attack with RAP is formulated as a min-max bi-level optimization problem. By integrating RAP into the iterative process for attacks, our method can find more stable adversarial examples which are less sensitive to the changes of decision boundary, mitigating the overfitting of the surrogate model. Comprehensive experimental comparisons demonstrate that RAP can significantly boost adversarial transferability. Furthermore, RAP can be naturally combined with many existing black-box attack techniques, to further boost the transferability. When attacking a real-world image recognition system, Google Cloud Vision API, we obtain 22% performance improvement of targeted attacks over the compared method. Our codes are available at https://github.com/SCLBD/Transfer_attack_RAP.
研究の動機と目的
- 白箱系の敵対的例の unseen target models への転移性の低さを動機づけ、解決する。
- RAP を提案し、損失地形の平坦な領域で敵対的点を検出させ、代理モデルの過剰適合を減らす。
- 既存のブラックボックス攻撃手法や防御と組み合わせたときの RAP の適合性と性能向上を示す。
提案手法
- 転送攻撃を、現在の敵対的点の近傍で最悪の摂動を最初に見つける(RAP)という min–max 二重最適化として定式化する。
- Inner problem (RAP): n^{rap} = arg max_{||n^{rap}||_∞ ≤ ε_n} L(M^s(G(x^{adv} + n^{rap}); θ), y_t) via projected gradient ascent.
- Outer problem: update x^{adv} to minimize the loss given the RAP-perturbed input, i.e., x^{adv} ← Clip_{B_ε(x)}[ x^{adv} - α sign(∇_{x^{adv}} L(M^s(G(x^{adv} + n^{rap}); θ), y_t)) ].
- RAP-LS(late-start RAP)を導入し、早期反復で RAP の摂動を一時停止して効率を高める。
- RAP のさまざまな入力変換および既存の転送攻撃技術との互換性を示す。
実験結果
リサーチクエスチョン
- RQ1敵対的例の周囲の平坦性を強制すると unseen target models への転移性にどのような影響を与えるか。
- RQ2RAP は多様なアーキテクチャや防御に対して標的型および非標的型の転送攻撃を改善できるか。
- RQ3RAP を既存の転送手法と組み合わせると攻撃性能はどの程度向上するか。
- RQ4late-start variant(RAP-LS)は実務的な効率と有効性の利点を提供するか。
主な発見
- RAP はベースラインの white-box 攻撃より転移性を大幅に向上させる;非標的攻撃の場合、I および MI に対する平均 ASR の改善はそれぞれ 9.6%、16.3% である。
- DI、TI、SI、および Admix も RAP の恩恵を受け、顕著な改善を示す(例:改善 10.9%、10.2%、9.3%、6.3%)。
- RAP-LS は転移性をさらに高め、三つの代表的な組み合わせで平均非標的 ASR が 95.4%、97.6%、98.3% に達する。
- 標的型攻撃では、RAP が I、MI、TI、DI、SI、Admix の各で平均 5.0%、8.1%、4.6%、10.4%、18.5%、15.1% の改善をもたらす。
- RAP–LS は多様なアーキテクチャ(Inception-ResNet-v2、NASNet-Large、ViT-B/16)および防御モデルに対して頑健な改善を示し、持続的な効果を示す。
- TTP のような強力なベースラインと比較して、MTDSI+RAP-LS は最先端の生成/標的アプローチをかなり上回ることができる(報告された比較で最大 ~25.7% 程度の改善) 。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。