Skip to main content
QUICK REVIEW

[論文レビュー] AutoZOOM: Autoencoder-based Zeroth Order Optimization Method for Attacking Black-box Neural Networks

Chun‐Chen Tu, Paishun Ting|arXiv (Cornell University)|May 30, 2018
Adversarial Robustness in Machine Learning参考文献 33被引用数 34
ひとこと要約

AutoZOOM は、適応的ランダム勾配推定と自己符号化器または二重線形リサイズによる次元削減を用いた、深層ニューラルネットワーク向けのクエリ効率の良いブラックボックス攻撃フレームワークを提案する。MNIST、CIFAR-10、ImageNet において、ZOO よりも少なくとも 93% のクエリ削減を達成しながら、高い攻撃成功率と視覚的品質を維持する。

ABSTRACT

Recent studies have shown that adversarial examples in state-of-the-art image classifiers trained by deep neural networks (DNN) can be easily generated when the target model is transparent to an attacker, known as the white-box setting. However, when attacking a deployed machine learning service, one can only acquire the input-output correspondences of the target model; this is the so-called black-box attack setting. The major drawback of existing black-box attacks is the need for excessive model queries, which may give a false sense of model robustness due to inefficient query designs. To bridge this gap, we propose a generic framework for query-efficient black-box attacks. Our framework, AutoZOOM, which is short for Autoencoder-based Zeroth Order Optimization Method, has two novel building blocks towards efficient black-box attacks: (i) an adaptive random gradient estimation strategy to balance query counts and distortion, and (ii) an autoencoder that is either trained offline with unlabeled data or a bilinear resizing operation for attack acceleration. Experimental results suggest that, by applying AutoZOOM to a state-of-the-art black-box attack (ZOO), a significant reduction in model queries can be achieved without sacrificing the attack success rate and the visual quality of the resulting adversarial examples. In particular, when compared to the standard ZOO method, AutoZOOM can consistently reduce the mean query counts in finding successful adversarial examples (or reaching the same distortion level) by at least 93% on MNIST, CIFAR-10 and ImageNet datasets, leading to novel insights on adversarial robustness.

研究の動機と目的

  • 既存のブラックボックス攻撃が非効率な座標単位の勾配推定に依存する高コストなクエリ問題に対処する。
  • 入力-出力アクセスのみを許可する実装済み機械学習モデルを攻撃するゼロ次最適化におけるクエリ効率を向上させる。
  • 最小限のモデルクエリで高い攻撃成功率と低歪みの adversarial 例を維持する。
  • 実用的な DNN のロバストネス評価を可能にするために、効果的な adversarial 例を生成するのに必要なクエリ数を削減する。
  • 既存の勾配推定ベースのブラックボックス攻撃と互換性がある汎用的で即時適用可能なフレームワークを提供する。

提案手法

  • 勾配近似に使用するランダム方向の数を調整することで、クエリ数と摂動歪みの間で動的バランスをとる、適応的ランダム勾配推定戦略を導入する。
  • 低次元の潜在空間摂動を元の画像空間に戻すために、ラベルなしデータ上で事前学習された自己符号化器または二重線形リサイズ操作(BiLIN)のデコーダーモジュールを採用する。
  • 学習された低次元潜在空間で攻撃次元を削減することで、ゼロ次最適化における収束速度とクエリ効率を向上させる。
  • ゼロ次最適化の $O(\sqrt{d/T})$ 収束レートを活用し、次元削減がクエリ複雑性を低減する利点を理論的に裏付ける。
  • 二段階の攻撃プロセスを統合する:第一段階では粗い勾配推定を用いて迅速に成功を達成し、第二段階ではクエリ予算を増やして高精度の勾配平均化を用いて歪みを精緻化する。
  • 実装時に軽量で学習不要な代替手段として、二重線形リサイズ操作(BiLIN)を採用し、リアルタイム配備と計算負荷の低減を実現する。

実験結果

リサーチクエスチョン

  • RQ1適応的ランダム勾配推定は、攻撃成功率や視覚的品質を損なわず、ブラックボックス攻撃におけるクエリ数を削減できるか?
  • RQ2自己符号化器または二重線形リサイズによる次元削減は、ブラックボックス攻撃におけるゼロ次最適化のクエリ効率をどの程度向上させるか?
  • RQ3攻撃次元が低減した場合、ゼロ次最適化の収束レートはどのように変化するか? また、この特性を活用してクエリ要件を低減できるか?
  • RQ4勾配推定パrameterの動的調整によって、歪みとクエリ数のトレードオフを効果的に管理できるか?
  • RQ5学習不要の二重線形ベースの次元削減手法は、全次元攻撃と比較して顕著なクエリ削減を達成できるか?

主な発見

  • MNIST、CIFAR-10、ImageNet で、成功する adversarial 例を発見する際、AutoZOOM は標準的な ZOO 法と比較して平均クエリ数を少なくとも 93% 削減した。
  • ImageNet では、初期成功を達成するためのクエリ数を最大 99.39% 削減し、同じ $L_2$ 歪みレベルに到達するためには 99.35% 削減した。これはベースライン手法を著しく上回る性能を示している。
  • 自己符号化器による次元削減(AutoZOOM-AE)は、ImageNet でクエリ数を少なくとも 95% 削減した。一方、MNIST と CIFAR-10 では 35–40% 削減し、入力次元に応じた強いスケーラビリティを示した。
  • 二重線形リサイズベースのバージョン(AutoZOOM-BiLIN)は、追加の学習コストがなく、AutoZOOM-AE と同等の性能を達成した。これは実用的配備に最適である。
  • クエリ数を増やして高平均化勾配推定(例:$q=4$)を用いた成功後の歪み精緻化では、$q=4$ を超えると利得が微増にとどまり、精緻化の恩恵が飽和していることが示された。
  • 理論的分析により、次元削減がゼロ次最適化の収束を改善することが確認され、$O(\sqrt{d/T})$ 収束レートを通じて観察されたクエリ効率の向上を裏付けるものとなった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。