QUICK REVIEW

[論文レビュー] SafetyNet: Detecting and Rejecting Adversarial Examples Robustly

Jiajun Lu, Theerasit Issaranon|arXiv (Cornell University)|Apr 1, 2017

Adversarial Robustness in Machine Learning参考文献 23被引用数 41

ひとこと要約

本稿では、RBF-SVM検出器を用いて深層ネットワーク内の量子化されたReLU活性化パターンを分析することにより、敵対的サンプルを検出し拒否する耐性のある防御手法であるSafetyNetを提案する。本手法は、複数のデータセットおよびネットワークにおいて、タイプIおよびタイプII攻撃に対して強く、誤検出が少なく、未観測の攻撃手法に対しても高い検出率を示す。

ABSTRACT

We describe a method to produce a network where current methods such as DeepFool have great difficulty producing adversarial samples. Our construction suggests some insights into how deep networks work. We provide a reasonable analyses that our construction is difficult to defeat, and show experimentally that our method is hard to defeat with both Type I and Type II attacks using several standard networks and datasets. This SafetyNet architecture is used to an important and novel application SceneProof, which can reliably detect whether an image is a picture of a real scene or not. SceneProof applies to images captured with depth maps (RGBD images) and checks if a pair of image and depth map is consistent. It relies on the relative difficulty of producing naturalistic depth maps for images in post processing. We demonstrate that our SafetyNet is robust to adversarial examples built from currently known attacking approaches.

研究の動機と目的

勾配ベースの防御に依存せずに、敵対的サンプルを信頼性高く検出し拒否する防御メカニズムの開発。
敵対的攻撃が検出を回避するが同時に誤分類を引き起こすタイプII攻撃に対する既存の検出手法の脆弱性の解消。
移譲可能およびユニバーサルな摂動を含む多様な攻撃タイプに一般化可能な敵対的検出の向上。
SceneProofとして、SafetyNetの新規応用を用いて、実世界の応用において不自然な画像深度ペアを信頼性高く検出することの実現。
勾配ベースまたは移譲ベースの攻撃によっても容易に撃破できない理論的根拠に基づいた耐性のある検出フレームワークの提供。

提案手法

SafetyNetは、事前学習済みの深層分類器（例：VGG19またはResNet）と、後段のReLU活性化からの離散コードを分析するRBF-SVM検出器を統合する。
活性化パターンは離散コードに量子化され、高レベル特徴統計を捉えるコンact表現を形成する。
RBF-SVMは自然画像上で学習され、有効な活性化パターンの分布を学習する。これにより、逸脱を示すものは敵対的と特定できる。
敵対的サンプルが誤分類の目的でない場合でも、不自然な活性化パターンを誘発するように設計されているため、タイプII攻撃に対して耐性を持つ。
SceneProofは、同じ活性化ベースの検出原理を用いて、RGB画像とその深度マップの不整合を検出することで、SafetyNetをRGB-D画像に拡張する。
システムは自然なシーンペアで学習され、テストでは多様な不自然な入力（例：深度をゼロ化、ダウンサンプリング、圧縮、合成）を含む、未観測の不自然なデータタイプに一般化することを保証する。

実験結果

リサーチクエスチョン

RQ1後段のReLU活性化パターンに基づく検出器は、多様な攻撃タイプにわたって、敵対的サンプルと自然な入力を信頼性高く区別できるか？
RQ2攻撃者が誤分類と検出回避の両方を達成するタイプII攻撃に対しても、提案された検出メカニズムは耐性を持つか？
RQ3合成的または操作された不自然なRGB-Dペアのような未観測のデータ分布に対しても、同じ検出メカニズムは一般化可能か？
RQ4訓練時に見られなかった攻撃手法（例えば移譲攻撃）が適用された場合、検出器の有効性はどの程度保たれるか？
RQ5検出フレームワークは、実世界のマルチモーダルデータ（例：RGB-D画像）に効果的に応用可能か？不自然または改ざんされた入力を検出できるか？

主な発見

ImageNet-1000におけるDeepFool5攻撃下で、敵対的サンプルの97.67％が検出され、検出を回避したのは2.32％にとどまった。
CIFAR-10では、正則化を施したm-SVM検出器が、Fast gradient攻撃下で誤分類された敵対的サンプルの95.51％を検出し、そのうち96.24％が拒否された。
ImageNet-1000におけるタイプII攻撃では、正則化を施したm-SVM検出器が、誤分類された敵対的サンプルの97.67％を検出しており、強い耐性が確認された。
SceneProofは、不自然な画像深度ペアを高い精度で検出できた：低品質のJPG圧縮ペアの100％、合成Sintelペアの95.51％が拒否された。
未観測の攻撃によって生成された敵対的サンプルに対しても、検出器は良好な一般化性能を示し、CIFAR-10テストセットで87.94％の敵対的サンプルを拒否した。
本手法は、訓練時に使用されなかった敵対的サンプルに容易にだまされる既存の検出手法（例：Metzenらの手法）を著しく上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。