Skip to main content
QUICK REVIEW

[論文レビュー] Query-Efficient Black-box Adversarial Examples (superceded)

Andrew Ilyas, Logan Engstrom|arXiv (Cornell University)|Dec 19, 2017
Adversarial Robustness in Machine Learning参考文献 18被引用数 25
ひとこと要約

本稿では、自然的進化的戦略(NES)を用いて、先行手法と比較して2〜3桁少ないクエリで敵対的サンプルを生成するクエリ効率の高いブラックボックス攻撃手法を提案する。部分情報設定(上位k個のラベルのみが可視)における標的攻撃のための新規アルゴリズムを導入し、Google Cloud Vision API(数千クラスを有する大規模な商用分類器)に対する最初の成功した標的攻撃を実証した。

ABSTRACT

Note that this paper is superceded by "Black-Box Adversarial Attacks with Limited Queries and Information." Current neural network-based image classifiers are susceptible to adversarial examples, even in the black-box setting, where the attacker is limited to query access without access to gradients. Previous methods --- substitute networks and coordinate-based finite-difference methods --- are either unreliable or query-inefficient, making these methods impractical for certain problems. We introduce a new method for reliably generating adversarial examples under more restricted, practical black-box threat models. First, we apply natural evolution strategies to perform black-box attacks using two to three orders of magnitude fewer queries than previous methods. Second, we introduce a new algorithm to perform targeted adversarial attacks in the partial-information setting, where the attacker only has access to a limited number of target classes. Using these techniques, we successfully perform the first targeted adversarial attack against a commercially deployed machine learning system, the Google Cloud Vision API, in the partial information setting.

研究の動機と目的

  • 実世界のシステムにおける高いクエリコストにより、既存のブラックボックス敵対的攻撃が現実的でないという問題に対処すること。
  • 厳密なブラックボックス制約下で、代替モデルを必要としない信頼性の高い敵対的サンプル生成手法を開発すること。
  • 上位k個のラベルとスコアのみがアクセス可能な部分情報設定における標的攻撃を可能にすること。
  • 変換に耐性を持つ敵対的サンプルをブラックボックス設定で効率的に生成できるかを検証すること。
  • Google Cloud Vision APIのような大規模な商用分類器(例:10,000以上のクラスを有する)に対する最初の標的攻撃を実施すること。

提案手法

  • 有限差分法を用いてランダムなガウスノイズの摂動に対して勾配を推定する自然的進化的戦略(NES)を採用し、代替モデルの必要を回避する。
  • 摂動のための探索分布を用いて、NESを効率的に敵対的損失関数最適化に応用する。
  • NESをランダムなガウス基底における有限差分推定に再定式化することで、理論的裏付けを強化し、クエリ効率を向上させる。
  • 上位k個のクラス予測のみが利用可能な部分情報設定における新しい標的攻撃アルゴリズムを導入する。
  • NESと変換の期待値(EOT)法を組み合わせることで、変換に耐性を持つ敵対的サンプルを生成する。
  • 二段階の最適化を採用:第一段階はNESを用いた非標的攻撃、第二段階は部分情報フィードバックを用いた標的最適化

実験結果

リサーチクエスチョン

  • RQ1既存の有限差分法や代替モデル法と比較して、著しく少ないクエリ数でブラックボックス設定において敵対的サンプルを生成できるか?
  • RQ2上位k個のクラスラベルとスコアしか入手できない状況でも、標的ブラックボックス攻撃が可能か?
  • RQ3勾配アクセスなしで、ブラックボックス設定において変換に耐性を持つ敵対的サンプルを効率的に生成できるか?
  • RQ4提案手法を用いて、実世界の大規模な商用分類器(例:Google Cloud Vision API)に対する攻撃が実際に成功するか?
  • RQ5クエリ効率と信頼性の観点から、NESに基づく勾配推定は有限差分法と比較してどのように優れているか?

主な発見

  • 提案手法であるNESベースの手法は、最適化された有限差分法と比較してクエリ数を2〜3桁削減し、CIFAR-10およびImageNetにおいて高い効率性を達成した。
  • NESとEOTアルゴリズムを組み合わせることで、ブラックボックス設定において初めて変換に耐性を持つ敵対的サンプルを生成した。
  • 上位k個の出力情報のみを用いて、10,000以上のクラスを有する商用システムであるGoogle Cloud Vision APIに対して、成功した標的攻撃を実施した。
  • スキー場の写真を「犬」と誤分類させるが、視覚的類似性を保った状態で攻撃を実行し、実世界への展開における有効性を示した。
  • 制限付きアクセス下でも、代替ネットワークや有限差分法に基づく先行手法と比較して、クエリ効率と信頼性の両面で優れた性能を示した。
  • 部分情報攻撃アルゴリズムにより、攻撃者が全クラス分布や信頼度スコアを観測できない状況でも、効果的な標的敵対的サンプルを生成可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。