QUICK REVIEW

[論文レビュー] The Limitations of Deep Learning in Adversarial Settings

Nicolas Papernot, Patrick McDaniel|arXiv (Cornell University)|Nov 24, 2015

Adversarial Robustness in Machine Learning参考文献 33被引用数 71

ひとこと要約

この論文は、敵対的サリエンシーマップを介して前方微分を計算することにより、深層ニューラルネットワーク（DNN）における敵対的サンプルを生成する新しい手法を提案する。この手法により、正確で低歪みの摂動が可能となり、平均して入力特徴量の4.02%しか変更しない状態で、標的の誤分類を達成する割合が97%に達する。

ABSTRACT

Deep learning takes advantage of large datasets and computationally efficient training algorithms to outperform other approaches at various machine learning tasks. However, imperfections in the training phase of deep neural networks make them vulnerable to adversarial samples: inputs crafted by adversaries with the intent of causing deep neural networks to misclassify. In this work, we formalize the space of adversaries against deep neural networks (DNNs) and introduce a novel class of algorithms to craft adversarial samples based on a precise understanding of the mapping between inputs and outputs of DNNs. In an application to computer vision, we show that our algorithms can reliably produce samples correctly classified by human subjects but misclassified in specific targets by a DNN with a 97% adversarial success rate while only modifying on average 4.02% of the input features per sample. We then evaluate the vulnerability of different sample classes to adversarial perturbations by defining a hardness measure. Finally, we describe preliminary work outlining defenses against adversarial samples by defining a predictive measure of distance between a benign input and a target classification.

研究の動機と目的

敵対的状況下における深層ニューラルネットワークを標的とする攻撃者の脅威モデルを形式化すること。
ネットワーク部品における不完全な一般化性と線形性を利用した敵対的サンプルによるDNNの脆弱性に対処すること。
最小限の入力摂動で標的の誤分類を実現する手法を開発すること。
良性入力と標的分類との距離を推定することで、耐性の予測指標を導入すること。

提案手法

摂動ベクトルδₓとDNN関数Fを用いて、min‖δₓ‖ s.t. F(X + δₓ) = Y* を解くことで敵対的サンプルを生成する新しい最適化フレームワークを提案。
前方微分をDNNの学習関数のヤコビ行列として定義し、入力摂動から出力変化への直接的なマッピングを可能にする。
前方微分を用いて敵対的サリエンシーマップを構築し、望ましい誤分類を達成するために最も影響力のある入力特徴を同定する。
ヒューリスティック探索手法を用いて、歪みを最小限に抑えつつ特定の出力を誘発する摂動を効率的に特定する。
順伝播DNNにこの手法を適用し、教師ありおよび教師なしアーキテクチャの両方をサポートする。
敵対的サンプルでDNNを訓練し、攻撃成功率の低下と歪みの増加を測定することで、耐性を評価する。

実験結果

リサーチクエスチョン

RQ1どのようにして、DNNにおける標的の誤分類を達成するために最小限の入力摂動で敵対的サンプルを体系的に生成できるか？
RQ2前方微分は、DNNにおける分類変化に最も感受性が高い入力特徴を特定するために果たす役割は何か？
RQ3敵対的サンプルは、さまざまなDNNアーキテクチャやデータセットに対してどの程度有効に機能するか？
RQ4敵対的サンプルで訓練することで、将来の攻撃に対するDNNの耐性が向上するか？
RQ5敵対的脆弱性を評価するために、入力から標的までの距離を予測する指標をどのように定義できるか？

主な発見

提案手法は、平均して入力特徴量の4.02%しか変更しない状態で、画像の誤分類に97%の敵対的成功率を達成した。
前方微分を用いて生成された敵対的サンプルは、人間の被験者が正しく分類した場合でも、DNNによって誤って分類された。
敵対的サンプルでDNNを訓練した結果、後続の攻撃の成功率が7.2%低下し、平均歪みが37.5%増加した。
前方微分に基づくサリエンシーマップは、勾配ベースの手法を上回り、より正確で低歪みの摂動を可能にした。
敵対的サンプルは、さまざまなDNNアーキテクチャ間で転送可能であり、その強度と一般化能を確認した。
研究では、敵対的訓練により敵対的耐性を向上させられることを示したが、敵対的入力を検出することは依然として未解決の課題であると判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。