Skip to main content
QUICK REVIEW

[論文レビュー] Query-Efficient Hard-label Black-box Attack:An Optimization-based Approach

Minhao Cheng, Thong Le|arXiv (Cornell University)|Jul 12, 2018
Adversarial Robustness in Machine Learning参考文献 14被引用数 104
ひとこと要約

この論文は hard-label black-box攻撃を連続的な実数最適化として再定式化し、zeroth-order法で解くことにより、CNNだけでなくGBDTのような非微分可能モデルに対してもクエリ効率の高い敵対的例を得る。

ABSTRACT

We study the problem of attacking a machine learning model in the hard-label black-box setting, where no model information is revealed except that the attacker can make queries to probe the corresponding hard-label decisions. This is a very challenging problem since the direct extension of state-of-the-art white-box attacks (e.g., CW or PGD) to the hard-label black-box setting will require minimizing a non-continuous step function, which is combinatorial and cannot be solved by a gradient-based optimizer. The only current approach is based on random walk on the boundary, which requires lots of queries and lacks convergence guarantees. We propose a novel way to formulate the hard-label black-box attack as a real-valued optimization problem which is usually continuous and can be solved by any zeroth order optimization algorithm. For example, using the Randomized Gradient-Free method, we are able to bound the number of iterations needed for our algorithm to achieve stationary points. We demonstrate that our proposed method outperforms the previous random walk approach to attacking convolutional neural networks on MNIST, CIFAR, and ImageNet datasets. More interestingly, we show that the proposed algorithm can also be used to attack other discrete and non-continuous machine learning models, such as Gradient Boosting Decision Trees (GBDT).

研究の動機と目的

  • 動機づけと形式化:ブラックボックス設定においてハードラベルの決定のみが観測可能な場合に、モデルに対する攻撃を動機づけ、形式化する。
  • zeroth-order最適化を可能にするため、 hard-label攻撃目的の連続実数値再定式化を提案する。
  • 収束保証を伴う再乱択勾配-free (RGF) 法を開発し、再定式化された問題を解く。
  • MNIST、CIFAR-10、ImageNet、およびGradient Boosting Decision Trees (GBDT) に対する有効性とクエリ効率を示す。

提案手法

  • 探索方向に沿って元の入力との距離を最小化することとして、untargetedおよびtargeted hard-label攻撃を連続関数 g(theta) を用いて定式化する。
  • ハードラベルクエリのみを用いて、境界探索(細かい探索に続く二分探索)により g(theta) を計算する。
  • Randomized Gradient-Free (RGF) を用いて min_theta g(theta) を解く:theta と theta+beta u での g の有限差分から勾配を推定し、推定勾配の負方向に一歩進めて theta を更新する。
  • ノイズを減らすために複数のガウス方向を用いて勾配を推定し、安定性のためにバックトラッキング線探索を適用する。
  • 収束保証を提供する:リプシュツ勾配かつ評価誤差 epsilon を制御した場合、反復計算量は O(d/delta^2) である。
  • フレームワークを非微分可能/離散モデル(例:GBDT)へ拡張し、従来の決定ベース攻撃に対してクエリ効率性を示す。

実験結果

リサーチクエスチョン

  • RQ1ハードラベル黒箱攻撃は zeroth-order 法に適した実数値最適化問題として効果的に定式化できるのか?
  • RQ2ハードラベル制約下でランダム化勾配なしアプローチを用いた場合の収束保証とクエリ複雑性は何か?
  • RQ3提案手法は、MNIST、CIFAR-10、ImageNet におけるCNNに対する既存の決定ベース黒箱攻撃と比較して、歪みとクエリ回数の観点でどう動作するか?
  • RQ4GBDT のような非微分可能モデルに適用可能か、そして達成可能な敵対的歪みはどのようなものか?

主な発見

  • 提案された g(theta) に基づく再定式化は、hard-label black-box 設定において zeroth-order 最適化に適した連続目的関数を生み出す。
  • 境界ベースの g 評価を用いる RGF は、MNIST、CIFAR-10、ImageNet 全体で最先端の決定ベース攻撃よりも少ないクエリで敵対的例を達成する。
  • この手法は、untargeted 攻撃では従来のブラックボックス手法より同程度またはより良い歪みを、はるかに少ないクエリで達成し、ターゲット付き攻撃ではしばしば収束を速くする。
  • この手法は、Gradient Boosting Decision Trees (GBDT) のような非微分可能モデルを hard-label クエリのみで攻撃することに成功した。
  • 理論的結果は、リプシッツ勾配の仮定と評価精度の制御下で定常点への収束を示し、所望の精度には O(d/δ^2) 回の反復を要する。
  • 経験的結果は、CNNおよびGBDTでの有効性を示し、広く用いられるモデルの頑健性の懸念を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。