Skip to main content
QUICK REVIEW

[論文レビュー] Towards Reverse-Engineering Black-Box Neural Networks

Seong Joon Oh, Max Augustin|arXiv (Cornell University)|Nov 6, 2017
Adversarial Robustness in Machine Learning被引用数 46
ひとこと要約

本稿では、入力出力ペアのクエリを利用して、ブラックボックスニューラルネットワークのモデル属性(アーキテクチャ、最適化手法、学習データセットなど)を推定する手法を提案する。多様なホワイトボックスモデルで訓練されたメタモデルを用いることで、これらの属性を高い精度で予測でき、この知識がより効果的な adversarial 攻撃を可能にすることを示している。白ボックスとブラックボックスの境界が曇っていることが明らかになった。

ABSTRACT

Many deployed learned models are black boxes: given input, returns output. Internal information about the model, such as the architecture, optimisation procedure, or training data, is not disclosed explicitly as it might contain proprietary information or make the system more vulnerable. This work shows that such attributes of neural networks can be exposed from a sequence of queries. This has multiple implications. On the one hand, our work exposes the vulnerability of black-box neural networks to different types of attacks -- we show that the revealed internal information helps generate more effective adversarial examples against the black box model. On the other hand, this technique can be used for better protection of private content from automatic recognition models using adversarial examples. Our paper suggests that it is actually hard to draw a line between white box and black box models.

研究の動機と目的

  • ブラックボックスニューラルネットワークの内部属性が、入力出力クエリからどの程度推定可能かを調査すること。
  • 知的財産権およびプライバシーの観点から、ブラックボックスモデルの逆設計に対する脆弱性を扱うこと。
  • 内部モデルパラメータに依存せず、クエリ応答のみを用いて、アーキテクチャ、最適化手法、学習データセットなどのモデル属性を予測するメタモデルを開発すること。
  • 逆設計により得られた知識が、ブラックボックスモデルに対する adversarial 攻撃の効果をどのように向上させるかを実証すること。
  • モデルファミリーおよびクエリ品質の観点から、推論手法の一般化性を評価すること。

提案手法

  • 多様なホワイトボックスモデルからなるメタトレーニングセット上でメタモデルを訓練し、入力出力クエリ応答から属性を予測する。
  • 内部モデルパラメータに依存せず、クエリベースの入力出力ペアをメタモデルの入力特徴として使用する。
  • 属性予測のための情報量を最大化するように、入力を選択するアクティブクエリ最適化を採用する。
  • adversarial 例の転送性を活用し、ランダムなアーキテクチャではなく、予測されたモデルファミリーに対して摂動を生成する。
  • 同一ファミリー内での転送性を評価するために、リーブ・ワン・アウット交差検証を適用する。
  • 白ボックス、ファミリーが分かっているブラックボックス、完全に未知のブラックボックスの各状況における攻撃性能を比較する。

実験結果

リサーチクエスチョン

  • RQ1ブラックボックスクエリ応答から、モデルアーキテクチャ、最適化手順、学習データセットはどの程度推定可能か?
  • RQ2クエリの質と量が、属性推定の精度にどのように影響するか?
  • RQ3逆設計により得られたモデル属性は、ブラックボックスモデルに対する adversarial 攻撃の成功率を向上させることができるか?
  • RQ4異なるアーキテクチャ間での転送性と比較して、同じファミリー内での adversarial 転送性はより優れているか?
  • RQ5ターゲットブラックボックスモデルがメタトレーニング分布と異なる場合、メタモデルの一般化性はどの程度保たれるか?

主な発見

  • メタモデルは、入力出力クエリのみを用いても、アーキテクチャファミリー、最適化手法(例:SGD 対 ADAM)、学習データセットなどのモデル属性を高い精度で予測できる。
  • モデルファミリーが正しく予測された場合、adversarial 攻撃の誤分類率は 85.7% に達し、ファミリー・オラクル状況(86.2%)に近く、事前知識なしの攻撃に比べて顕著に優れている。
  • ファミリー内での adversarial 転送性は、ファミリー間の転送性を上回り、表 4 の対角成分が、同じアーキテクチャファミリー内での高い成功率を示している。
  • 同じファミリーに属する複数のモデル(例:ResNet101, ResNet152)に対して adversarial 例を生成することは、単一のモデルや複数の関係のないファミリーに攻撃するよりも効果的である。
  • 予測されたモデルファミリーに焦点を当てることで、効果的な攻撃に必要なクエリコストを顕著に削減でき、逆設計が攻撃効率を向上させることを示している。
  • 本研究では、ブラックボックスモデルが白ボックスに類似した攻撃を可能にするよう逆設計可能であることが示され、白ボックスとブラックボックスの区別が曇っていることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。