[論文レビュー] Diversity can be Transferred: Output Diversification for White- and Black-box Attacks
ODS(Output Diversified Sampling)を導入します。これは勾配ベースのサンプリング戦略で、モデルの出力の多様性を最大化し、白箱攻撃とブラックボックス攻撃の双方を改善し、代理モデルを介した転移性を持ちます。
Adversarial attacks often involve random perturbations of the inputs drawn from uniform or Gaussian distributions, e.g., to initialize optimization-based white-box attacks or generate update directions in black-box attacks. These simple perturbations, however, could be sub-optimal as they are agnostic to the model being attacked. To improve the efficiency of these attacks, we propose Output Diversified Sampling (ODS), a novel sampling strategy that attempts to maximize diversity in the target model's outputs among the generated samples. While ODS is a gradient-based strategy, the diversity offered by ODS is transferable and can be helpful for both white-box and black-box attacks via surrogate models. Empirically, we demonstrate that ODS significantly improves the performance of existing white-box and black-box attacks. In particular, ODS reduces the number of queries needed for state-of-the-art black-box attacks on ImageNet by a factor of two.
研究の動機と目的
- 対サーバー/標的モデルの出力を最大化する多様な摂動を、入力空間のランダムサンプリングだけに頼らず必要性を動機づける。
- 出力の多様性を最大化するためにOutput Diversified Sampling(ODS)を提案する。
- ODSが代理モデルを介して転移可能であり、白箱・ブラックボックス攻撃の効率を向上させることを示す。
- 標準データセットとモデルで、攻撃の有効性とクエリ効率の経験的改善を実証する。
提案手法
- ODS摂動方向v_ODS(x,f,w_d)を、xに関するw_d^T f(x)の正規化勾配として定義する。
- 白箱設定では、ODI(Initialization with ODI)を用いてεボール内でw_d^T(f(x)-f(x_org))を最大化し、多様な出発点を生成する。
- ブラックボックス設定では、ODSを代理モデルに適用して、SimBAやBoundary Attackのような攻撃の更新方向を生成する。
- 入力摂動の多様性が出力空間の多様性へと転換されること、そして代理モデルベースのODSがこの多様性をターゲットモデルへ転移させることを実証する。
- 単純なランダム初期化や標準ベースラインと比較して、多様性と効率の改善を示す。
実験結果
リサーチクエスチョン
- RQ1出力方向勾配に沿って入力を摂動させると、ランダムな入力空間の摂動よりも多様で効果的な敵対的開始点が得られるだろうか?
- RQ2ODSで多様化された摂動は代理モデルで出力空間の多様性をブラックボックスモデルへ転移させることができるか?
- RQ3ODI補強白箱ATTACKの性能は、ℓ∞およびℓ2ノルムの下で最先端の攻撃と比較してどうなるか?
- RQ4ODSと代理モデルベースのブラックボックス攻撃を組み合わせると、クエリ回数と摂動サイズは削減されるか?
- RQ5代理モデルが分布外データで訓練されている場合、ODSは有効か?
主な発見
- ODSは、ℓ∞およびℓ2攻撃の白箱設定において攻撃有効性を改善する。
- ODIとODSは、均一初期化よりも多様な開始点を生み出し、CIFAR-10およびImageNetの実験で必要な摂動を削減する。
- 代理モデルに適用したODSは、ImageNetでのスコアベース攻撃のクエリ回数を実質的に削減する(約2分の1の要因)。
- 代理モデルと組み合わせた際にODSは決定ベースおよびスコアベースのブラックボックス攻撃を改善し、クエリ効率と摂動サイズの面でいくつかの最先端手法を上回る。
- surrogateが分布外データで訓練されていてもODSは有効であり、代理データ品質に対する頑健性を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。