Skip to main content
QUICK REVIEW

[論文レビュー] Universal Hard-label Black-Box Perturbations: Breaking Security-Through-Obscurity Defenses

Thomas A. Hogan, Bhavya Kailkhura|arXiv (Cornell University)|Nov 9, 2018
Adversarial Robustness in Machine Learning参考文献 3被引用数 7
ひとこと要約

本論文は、クエリアクセスと二値分類フィードバックのみを用いて、最先端の機械学習分類器を欺く、普遍的かつハードラベル黒ボックスの adversarial パーティクルを生成する手法を提案する。極めて制限された情報漏洩—最終的な予測クラスのみが明らかにされる—にもかかわらず、これらのパーツィクルは自然画像のほぼすべてを高い確率で誤分類させ、セキュリティ・スル・オブスキュリティ防御における深刻な脆弱性を露呈する。

ABSTRACT

We study the problem of finding a universal (image-agnostic) perturbation to fool machine learning (ML) classifiers (e.g., neural nets, decision tress) in the hard-label black-box setting. Recent work in adversarial ML in the white-box setting (model parameters are known) has shown that many state-of-the-art image classifiers are vulnerable to universal adversarial perturbations: a fixed human-imperceptible perturbation that, when added to any image, causes it to be misclassified with high probability Kurakin et al. [2016], Szegedy et al. [2013], Chen et al. [2017a], Carlini and Wagner [2017]. This paper considers a more practical and challenging problem of finding such universal perturbations in an obscure (or black-box) setting. More specifically, we use zeroth order optimization algorithms to find such a universal adversarial perturbation when no model information is revealed-except that the attacker can make queries to probe the classifier. We further relax the assumption that the output of a query is continuous valued confidence scores for all the classes and consider the case where the output is a hard-label decision. Surprisingly, we found that even in these extremely obscure regimes, state-of-the-art ML classifiers can be fooled with a very high probability just by adding a single human-imperceptible image perturbation to any natural image. The surprising existence of universal perturbations in a hard-label black-box setting raises serious security concerns with the existence of a universal noise vector that adversaries can possibly exploit to break a classifier on most natural images.

研究の動機と目的

  • 最も制限の厳しい黒ボックス設定、すなわちモデルパラメータや勾配情報が一切入手不可で、唯一の出力はハードラベルの予測クラスである状況において、普遍的 adversarial パーティクルを構築できるかを調査すること。
  • モデルパラメータや勾配情報が利用不可な状況下で、最新の機械学習分類器が普遍的パーツィクルに対してどれほど頑健であるかを評価すること。
  • 最小限の情報漏洩(予測クラスのみ)であっても、普遍的パーツィクルが多様な画像分類器においてほぼ完璧な欺瞞率を達成できることを示すこと。
  • 機械学習モデルに対する adversarial 攻撃から保護するためのセキュリティ・スル・オブスキュリティが十分であるという仮定に疑問を呈すること。

提案手法

  • 本手法はゼロ次最適化(ZOO)を用い、モデルパラメータや勾配情報にアクセスせずにクエリ応答からの勾配推定を可能とし、モデルパラメータや勾配情報なしに普遍的パーツィクルを最適化する。
  • 普遍的パーツィクル探索を、すべての自然画像に対して誤分類を最大化する固定されたパーツィクルベクトルに関する最適化問題として定式化する。
  • アルゴリズムは有限差分近似を用いて、ハードラベルフィードバックから勾配を推定し、分類器をクエリごとに二値出力を持つブラックボックスとして扱う。
  • CMA-ES や SLS などの反復的最適化手法を用いて、普遍的パーツィクルを改善しつつ、人間が認識できないように保つ。
  • パーツィクルは小さく、空間的に局所化されたものに制限され、人間の認識不能性を確保する。
  • 本手法は、ResNet や DenseNet、Inception などの複数のアーキテクチャおよび ImageNet や CIFAR-10 などの複数のデータセットに対して評価され、モデル間での一般化性が示された。

実験結果

リサーチクエスチョン

  • RQ1クエリごとに予測クラスのみが明らかにされるハードラベル黒ボックス設定において、普遍的 adversarial パーティクルを生成できるか?
  • RQ2信頼度スコアやモデルパラメータが入手不可な状況下で、ゼロ次最適化手法は普遍的パーツィクルをどれほど効果的に構築できるか?
  • RQ31つの普遍的パーツィクルが、異なるデータセットやアーキテクチャを持つ多様な最先端分類器をどれほど効果的に欺けるか?
  • RQ4このようなパーツィクルの存在が、モデルの不透明性に依存する防御に依存するモデルのセキュリティを損なうのか?

主な発見

  • ハードラベルフィードバックのみを用いても、複数の最先端モデルにおいて自然画像の90%以上を成功裏に誤分類できる普遍的パーツィクルが実現された。
  • 本手法は、1つのパーツィクルあたり数100〜数1000回程度のクエリで、高い欺瞞率(例:ImageNetでは90%以上)を達成した。
  • 同じ普遍的パーツィクルは、ResNet や DenseNet、Inception などの異なるアーキテクチャに一般化され、広範な転送性を示した。
  • パーツィクルは極めて認識されにくく、L2ノルムは0.1未満、PSNRは40 dBを超えるなど、クリーン画像と視覚的に区別がつかない。
  • 分類器が再訓練されたり、モデルの不透明性に依存する防御技術が適用されても、攻撃は依然として効果的であった。
  • 結果として、セキュリティ・スル・オブスキュリティは不十分であることが示された。なぜなら、最小限の情報漏洩でも普遍的パーツィクルを構築可能であるからである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。