Skip to main content
QUICK REVIEW

[論文レビュー] DeepSafe: A Data-driven Approach for Checking Adversarial Robustness in Neural Networks

Divya Gopinath, Guy Katz|arXiv (Cornell University)|Oct 2, 2017
Adversarial Robustness in Machine Learning参考文献 18被引用数 58
ひとこと要約

DeepSafe は、ラベルに基づくクラスタリングで入力空間を安全な領域に分割し、形式的検証(Relupex)を使用して堅牢性を証明するか対向的な例を露呈させる、データガイド型の手法を提案します。

ABSTRACT

Deep neural networks have become widely used, obtaining remarkable results in domains such as computer vision, speech recognition, natural language processing, audio recognition, social network filtering, machine translation, and bio-informatics, where they have produced results comparable to human experts. However, these networks can be easily fooled by adversarial perturbations: minimal changes to correctly-classified inputs, that cause the network to mis-classify them. This phenomenon represents a concern for both safety and security, but it is currently unclear how to measure a network's robustness against such perturbations. Existing techniques are limited to checking robustness around a few individual input points, providing only very limited guarantees. We propose a novel approach for automatically identifying safe regions of the input space, within which the network is robust against adversarial perturbations. The approach is data-guided, relying on clustering to identify well-defined geometric regions as candidate safe regions. We then utilize verification techniques to confirm that these regions are safe or to provide counter-examples showing that they are not safe. We also introduce the notion of targeted robustness which, for a given target label and region, ensures that a NN does not map any input in the region to the target label. We evaluated our technique on the MNIST dataset and on a neural network implementation of a controller for the next-generation Airborne Collision Avoidance System for unmanned aircraft (ACAS Xu). For these networks, our approach identified multiple regions which were completely safe as well as some which were only safe for specific labels. It also discovered several adversarial perturbations of interest.

研究の動機と目的

  • ニューロー網の点ごとの敵対的チェックを超えた頑健性の評価を動機づけ、入力領域全体の頑健性を認証することを目指す。
  • データガイド型のクラスタリング手法を開発し、一貫したラベル付けを持つ明確な安全領域を生み出す。
  • 各領域内で形式検証を提供して頑健性を保証するか、反例を露呈する。
  • 領域内で特定のターゲットラベルへの誤分類に対する保護を保証するターゲット付き頑健性を導入する。
  • 安全クリティカルな ACAS Xu ネットワークと MNIST分類器に対するスケーラビリティと適用性を実証する。

提案手法

  • 混合ラベルのクラスタを再帰的に分割することにより、ラベルを一貫して持つ密集したクラスタを生成するよう kMeans を拡張した、ラベル導向クラスタリングを導入する。
  • ある半径内のすべての入力が同じ真ラベルを持つ場合にそのクラスタを安全領域として定義する。 一致の可能性を高めるために半径を r = センター点からの平均距離に縮小する。
  • 頑健性検証を標的付き性質として表現する:ラベル l を持つクラスタについて、センターから半径 r 内のいかなる入力も他のラベル l' に写像されないことを検証する(式 2)。
  • Reluplex を用いてクラスタの仮説の否定(式 2)を各潜在ターゲットラベル l' に対して検証し、ターゲット頑健性を認証する(あるいは敵対的な例を生成する)。
  • 中心点スコアの降順にターゲットラベルを優先して検証作業を最適化する。 検証は小さなクラスタ内で行い、扱いやすさを高め、並列化を可能にする。
  • 距離尺度は、クラスタリングには L2 を、Reluplex 検証には(上限として)L1 を用いて、検出された摂動の妥当性を保つ。 制約の絞り込みとクラスタレベルの包含によってスケーラビリティを向上させる。

実験結果

リサーチクエスチョン

  • RQ1ラベル導向クラスタリングは、頑健性検証に適した小さく密な単一ラベル領域を作成できるか?
  • RQ2これらの領域内での検証は、特定の誤分類に対するターゲット付き頑健性を含む、正式な頑健性保証を生み出すか?
  • RQ3点ごとの敵対的探索と比較して、クラスタベースの頑健性検証のスケーラビリティはどの程度か?
  • RQ4安全Criticalネットワーク(例:ACAS Xu)や標準データセット(例:MNIST)において、どのような種類の敵対的摂動と安全領域が現れるか?

主な発見

  • 本手法は ACAS Xu で複数の完全に安全な領域と、特定のラベルに対して安全な領域をいくつか同定した。
  • いくつかのクラスタは特定のターゲットラベルに対してのみ安全であり、領域における頑健性のニュアンスを示している。
  • 関心のある敵対的摂動を発見し、より多くの訓練データを必要とする領域を強調した。
  • ACAS Xu の実験では、分析した210クラスタのうち、125 が安全クラスタ、52 がターゲット安全クラスタ、33 がタイムアウトを得た(Table 1)。
  • さらなるクラスタの詳細は、さまざまなスライスと半径にわたって safe、targeted safe、または unsafe とラベリングされた複数のクラスタを示した(Table 2)。
  • この手法は、頑健性を地域的な証明義務に分解し、クラスタの並列検証を可能にすることでスケーラビリティを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。