QUICK REVIEW

[論文レビュー] Intriguing properties of neural networks

Christian Szegedy, Wojciech Zaremba|arXiv (Cornell University)|Dec 21, 2013

Neural Networks and Applications参考文献 6被引用数 5,706

ひとこと要約

この論文は、(1) 深層ネットの意味情報は特定のユニットではなく活性化空間全体に分布している、(2) ニューロンネットワークは敵対的サンプル—知覚不能な入力摂動が誤分類を引き起こす—に対して脆弱であり、摂動はモデル間および学習データセット間で転移することが多い、という点を示している。

ABSTRACT

Deep neural networks are highly expressive models that have recently achieved state of the art performance on speech and visual recognition tasks. While their expressiveness is the reason they succeed, it also causes them to learn uninterpretable solutions that could have counter-intuitive properties. In this paper we report two such properties. First, we find that there is no distinction between individual high level units and random linear combinations of high level units, according to various methods of unit analysis. It suggests that it is the space, rather than the individual units, that contains of the semantic information in the high layers of neural networks. Second, we find that deep neural networks learn input-output mappings that are fairly discontinuous to a significant extend. We can cause the network to misclassify an image by applying a certain imperceptible perturbation, which is found by maximizing the network's prediction error. In addition, the specific nature of these perturbations is not a random artifact of learning: the same perturbation can cause a different network, that was trained on a different subset of the dataset, to misclassify the same input.

研究の動機と目的

深層ネットワークにおいて個々の高レベルユニットが固有の意味的役割を持つという概念に疑問を投げかける。
学習済み方向と同等の意味を random な活性化方向が示し得ることを示す。
小さく慎重に設計された入力摂動が信頼性を持ってネットワークの予測を反転させうること（敵対的サンプル）を示す。
敵対的サンプルのモデル横断および訓練データセット横断の一般化を調査する。
敵対的摂動を局所空間の幾何と訓練時のハードネガティブマイニング/敵対的訓練と結びつける枠組みを提案する。

提案手法

自然基底座標に沿った活性化と φ(x) のランダム方向を比較して意味を分析する。
ターゲット誤分類を満たす摂動ノルムを最小化する箱制約付き最適化を解いて敵対的摂動を正式に定義・計算する。
最小の摂動を見つけるために箱制約付き L-BFGS と線探索を用いて D(x,l) を近似する。
MNIST、AlexNet、QuocNet アーキテクチャおよび異なる訓練セットを横断して敵対的例を評価する。
層のリプシッツ定数のスペクトル解析を行い入力対出力の安定性を境界づける。
敵対的例のモデル間転移性と訓練セット間転移性を評価する。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークの意味情報は個々のユニットに存するのか、それとも活性化空間全体に分布しているのか。
RQ2活性化空間のランダムな方向が、個々のユニットから得られる意味的に意味のある可視化と同等の意味を持つか。
RQ3深層ネットワークは知覚不能な入力摂動によって生じる敵対的例に脆弱かつ、これらの摂動はモデル間および訓練データに跨って転移するのか。
RQ4活性化写像の局所的な幾何がネットワークの安定性と一般化にどのように関係するか。
RQ5訓練時のハードネガティブマイニングや敵対的訓練を通じて、敵対的例が一般化を改善するために利用できるか。

主な発見

Model Name	Description	Training error	Test error	Av. min. distortion
FC10(10^{-4})	Softmax with λ=10^{-4}	6.7%	7.4%	0.062
FC10(10^{-2})	Softmax with λ=10^{-2}	10%	9.4%	0.1
FC10(1)	Softmax with λ=1	21.2%	20%	0.14
FC100-100-10	Sigmoid network λ=10^{-5},10^{-5},10^{-6}	0%	1.64%	0.058
FC200-200-10	Sigmoid network λ=10^{-5},10^{-5},10^{-6}	0%	1.54%	0.065
AE400-10	Autoencoder with Softmax λ=10^{-6}	0.57%	1.9%	0.086

活性化空間のランダム方向でも、個々のユニットの活性化を最大化する方向に類似した意味的に関連する画像を生み出せる。
意味情報は高次の層において個々のユニットに限定されず、活性化空間全体に分布している。
敵対的例は複数のアーキテクチャ（MNIST、AlexNet、QuocNet）で存在し、視覚的にはほぼ区別がつかないまま誤分類を引き起こす。
敵対的例は異なるハイパーパラメータを持つモデル間およびデータの異なるサブセットで訓練されても転移する。
敵対的摂動を訓練データへ組み込むことで、いくつかの MNIST モデルで一般化を改善できる場合がある。
スペクトル解析は層ごとのリプシッツ境界が不安定さを抑える可能性を示し、敵対的感受性を低減する正則化の示唆となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。