[論文レビュー] Sign-OPT: A Query-Efficient Hard-label Adversarial Attack
本稿では、1回のクエリによる方向微分の符号を推定する単一クエリオラクルを用いることで、従来の最先端手法と比較して5–10倍少ないクエリで収束を達成できるクエリ効率の高いハードラベルブラックボックス敵対的攻撃であるSign-OPTを提案する。MNIST、CIFAR-10、ImageNetの各データセットにおいて、より小さな摂動で、かつ一貫して既存手法を上回る性能を達成する。
We study the most practical problem setup for evaluating adversarial robustness of a machine learning system with limited access: the hard-label black-box attack setting for generating adversarial examples, where limited model queries are allowed and only the decision is provided to a queried data input. Several algorithms have been proposed for this problem but they typically require huge amount (>20,000) of queries for attacking one example. Among them, one of the state-of-the-art approaches (Cheng et al., 2019) showed that hard-label attack can be modeled as an optimization problem where the objective function can be evaluated by binary search with additional model queries, thereby a zeroth order optimization algorithm can be applied. In this paper, we adopt the same optimization formulation but propose to directly estimate the sign of gradient at any direction instead of the gradient itself, which enjoys the benefit of single query. Using this single query oracle for retrieving sign of directional derivative, we develop a novel query-efficient Sign-OPT approach for hard-label black-box attack. We provide a convergence analysis of the new algorithm and conduct experiments on several models on MNIST, CIFAR-10 and ImageNet. We find that Sign-OPT attack consistently requires 5X to 10X fewer queries when compared to the current state-of-the-art approaches, and usually converges to an adversarial example with smaller perturbation.
研究の動機と目的
- モデルの予測結果(ロジットや確率ではなく)しか入手できないハードラベルブラックボックス敵対的攻撃におけるクエリ効率の課題を解決すること。
- 敵対的例を生成するために必要なクエリ数を削減すること。これは、実用的かつステルス性の高い攻撃にとって極めて重要である。
- 1回の評価あたり1つのクエリのみを用いて、方向微分の符号情報を活用する新しい最適化手法を開発すること。
- ハードラベル設定において、提案されたSign-OPTアルゴリズムの理論的収束保証を提供すること。
- 既存手法と比較して、優れたクエリ効率とより小さい摂動の大きさを実証的に示すこと。
提案手法
- Chengら(2019)の定式化を用いて、ハードラベル攻撃を滑らかな最適化問題に再定式化することで、勾配ベースの最適化を可能にする。
- 2つの符号が逆の摂動を加えた入力に対するモデル予測を比較することで、方向微分の符号を推定する、新しい単一クエリオラクルを導入する。
- この符号オラクルをゼロ次最適化フレームワーク内に統合し、ランダム方向ベクトルの大きさを組み込んだsignSGDの変種を採用する。
- 最適化は、推定された勾配の符号を用いて繰り返し摂動を更新することで行われ、適切な仮定の下で収束解析が提供される。
- 関数評価のための二分探索を回避することで、1回の反復あたりのクエリコストを数十回から1回に削減する。
- この手法をMNIST、CIFAR-10、ImageNetのモデルに適用し、Boundary、OPT、ZO-SignSGDベースの攻撃と比較する。
実験結果
リサーチクエスチョン
- RQ1ハードラベルブラックボックス攻撃において、方向微分の符号を1回のモデルクエリのみで推定できるか?
- RQ21回のクエリによる符号オラクルを用いることで、敵対的攻撃における総クエリ数が顕著に削減できるか?
- RQ3提案されたSign-OPT手法は、既存のクエリ効率の高い攻撃と比較して、より小さな摂動(低い$L_2$歪度)を達成できるか?
- RQ4ハードラベル設定において、Sign-OPTの収束特性は、既存のゼロ次最適化手法と比較してどうなるか?
- RQ51回のクエリによる符号オラクルは、ハードラベル設定における他の最適化ベース攻撃手法に対しても普遍的に効果を発揮するか?
主な発見
- MNIST、CIFAR-10、ImageNetにおいて、現在の最先端のOPT攻撃と比較して、Sign-OPTはクエリ数を5–10倍削減した。
- MNISTでは、14,000クエリで94%の成功率と平均$L_2$歪度1.09を達成し、OPTおよびBoundary攻撃を上回った。
- CIFAR-10では、12,000クエリで95%の成功率と平均$L_2$歪度0.13を達成し、OPTおよびBoundary攻撃と比較して顕著に低い歪度を実現した。
- ImageNet(ResNet-50)では、160,000クエリで90%の成功率と平均$L_2$歪度1.21を達成したが、同じクエリ予算下でOPTは4.27の歪度であった。
- 単一クエリ符号オラクルはSign-OPTに限らず、ZO-SignSGDなどの他の手法に対しても効果を示し、一般化された有効性を示した。
- クエリ数が一致する条件下でも、Sign-OPTは従来の手法よりも常により小さな摂動で敵対的例を発見できた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。