QUICK REVIEW

[論文レビュー] Combating Adversarial Attacks Using Sparse Representations.

Soorya Gopalakrishnan, Zhinus Marzi|arXiv (Cornell University)|Feb 12, 2018

Adversarial Robustness in Machine Learning被引用数 1

ひとこと要約

本稿では、$ε$-有界な$–\infty$攻撃下における adversarial robustness の劣化を顕著に低減するためのスパース化フロントエンドを提案する。入力をスパースに表現することで、この手法は出力歪みを$K/N$の要因で確実に低減する。MNISTにおける実験により、 adversarial example に対する防御の有効性が確認された。

ABSTRACT

It is by now well-known that small adversarial perturbations can induce classification errors in deep neural networks (DNNs). In this paper, we make the case that sparse representations of the input data are a crucial tool for combating such attacks. For classifiers, we show that a sparsifying front end is provably effective against $\ell_{\infty}$-bounded attacks, reducing output distortion due to the attack by a factor of roughly $K / N$ where $N$ is the data dimension and $K$ is the sparsity level. We then extend this concept to DNNs, showing that a locally linear model can be used to develop a theoretical foundation for crafting attacks and defenses. Experimental results for the MNIST dataset show the efficacy of the proposed sparsifying front end.

研究の動機と目的

深層ニューラルネットワークが微小で人間が認識できない adversarial パーティクルの影響を受ける脆弱性に対処すること。
スパース表現が adversarial 攻撃に対して確実に堅牢な防御メカニズムとして機能できるかどうかを調査すること。
スパarsity、局所線形性、および DNN における adversarial robustness の間の理論的枠組みを構築すること。
MNIST などの標準ベンチマーク上で提案された防御を経験的に検証すること。

提案手法

学習済みまたは固定された基底を用いて、入力データをスパース表現に射影するスパース化フロントエンドを導入する。
理論的分析により、$–\infty$-有界攻撃の下で、出力歪みが$K/N$の要因で低減されることが示された。ここで$K$はスパarsityレベル、$N$は入力次元である。
DNN の挙動をモデル化するための局所線形モデルを活用し、攻撃および防御メカニズムに関する洞察を得る。
過完全辞書を用いたスパースコーディングにより、分類の前に入力を符号化し、堅牢性を向上させる。
分類器とは独立してスパース化フロントエンドをトレーニングまたは適用することで、モジュール型の防御統合を可能にする。

実験結果

リサーチクエスチョン

RQ1スパース表現は、深層ニューラルネットワークにおける$–\infty$-有界 adversarial 攻撃の影響を確実に低減できるか？
RQ2入力表現におけるスパarsityは、DNN 分類器の堅牢性にどのように影響するか？
RQ3局所線形モデルは、adversarial 攻撃および防御の理解のための理論的基盤を提供できるか？
RQ4adversarial パーティクルの下でスパース化フロントエンドを用いることで、出力歪みはどの程度低減されるか？

主な発見

スパース化フロントエンドにより、$–\infty$-有界攻撃による出力歪みが約$K/N$の要因で低減され、確実な堅牢性の向上が得られた。
理論的分析により、入力表現におけるスパarsityが adversarial パーティクル下で誤差拡大を有界に保つことが確認された。
MNIST ではクリーンな精度を高い水準で維持しながら、adversarial example に対する堅牢性が顕著に向上した。
実験結果により、MNIST における複数の adversarial 攻撃設定で一貫した性能向上が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。