QUICK REVIEW

[論文レビュー] Spectral Norm Regularization for Improving the Generalizability of Deep Learning

Yuichi Yoshida, Takeru Miyato|arXiv (Cornell University)|May 31, 2017

Neural Networks and Applications参考文献 28被引用数 218

ひとこと要約

本論文はスペクトルノルム正則化を提案し、重み行列のスペクトルノルムを制約することで入力摂動に対する感度を低減し、汎化性能を向上させることを狙いとしている。複数のCNNアーキテクチャとデータセットを横断して実証されている。

ABSTRACT

We investigate the generalizability of deep learning based on the sensitivity to input perturbation. We hypothesize that the high sensitivity to the perturbation of data degrades the performance on it. To reduce the sensitivity to perturbation, we propose a simple and effective regularization method, referred to as spectral norm regularization, which penalizes the high spectral norm of weight matrices in neural networks. We provide supportive evidence for the abovementioned hypothesis by experimentally confirming that the models trained using spectral norm regularization exhibit better generalizability than other baseline methods.

研究の動機と目的

入力摂動感度を通じた汎化性の研究動機付け。
重み行列の大きなスペクトルノルムを抑制するようなスペクトルノルム正則化を提案。
大きなミニバッチでも特に汎化性とテスト精度を改善することを示す。
スペクトルノルム正則化をウェイト減衰、敵対的訓練、Jacobian正則化と比較する。
入力摂動感度と一般化性能との関係性に関する洞察を提供する。

提案手法

スペクトルノルム正則化を経験的リスクに対する項 (lambda/2) sum_l sigma(W^l)^2 を加える最小化として定式化する。
効率のために1回のパワー法による近似勾配を算出する。
フィードフォワードネットワーク内の全ウェイト行列に正則化を適用する（畳み込み層は行列へ再成形して適用）。
Nesterovモーメント付きSGDとグリッドサーチされたハイパーパラメータを用いて、複数のネットワークとデータセットで実験を行う。
CIFAR-10/100およびSTL-10データセットを用いて、ウェイト減衰および敵対的訓練と比較する。

実験結果

リサーチクエスチョン

RQ1ウェイト行列のスペクトルノルムを制限することで未見データへの汎化性が改善されるか。
RQ2スペクトルノルム正則化は従来の正則化（ウェイト減衰、敵対的訓練）と比べてテスト精度と一般化ギャップにおいてどうなるか。
RQ3深層ネットワークにおけるテストデータ摂動に対する不感度は一般化性能の重要な予測因子か。
RQ4スペクトルノルム正則化がウェイト行列のスペクトルに与える影響は何か。
RQ5小規模ミニバッチ対 large mini-batch regime におけるスペクトルノルム正則化の挙動はどうなるか。

主な発見

モデル	B	vanilla	decay	adver.	spectral	alpha	vanilla	decay	adver.	spectral
VGGNet (CIFAR-10)	64	0.898	0.897	0.884	0.904	0.88	0.079	0.074	0.109	0.068
VGGNet (CIFAR-10)	4096	0.858	0.863	0.870	0.885	0.85	0.092	0.064	0.064	0.045
NIN (CIFAR-100)	64	0.626	0.672	0.627	0.669	0.62	0.231	0.120	0.253	0.090
NIN (CIFAR-100)	4096	0.597	0.618	0.607	0.640	0.59	0.205	0.119	0.196	0.090
DenseNet (CIFAR-100)	64	0.675	0.718	0.675	0.709	0.67	0.317	0.080	0.299	0.095
DenseNet (CIFAR-100)	4096	0.639	0.671	0.649	0.697	0.63	0.235	0.111	0.110	0.051
DenseNet (STL-10)	64	0.724	0.723	0.707	0.735	0.70	0.063	0.073	0.069	0.068
DenseNet (STL-10)	4096	0.686	0.689	0.676	0.697	0.67	0.096	0.057	0.015	0.042

スペクトルノルム正則化は、特に大きなミニバッチ領域で、複数のモデルで最良のテスト精度をもたらす。
モデルとデータセットを問わず、スペクトルノルム正則化は一貫して最小の一般化ギャップを達成する。
テストデータに対する勾配ノルムは一般化ギャップと相関し、スペクトルノルム正則化は入力摂動に対する感度を低減する。
スペクトルノルム正則化はウェイト行列の特異値スペクトルの平坦化（最大特異値の低下）を促す傾向がある。
訓練損失の最大ヘッセ行列固有値は、スペクトルノルム正則化を用いる場合、一般化の信頼できる予測因子ではない。
スペクトルノルム正則化は純粋なウェイト減衰よりもモデル容量を保ちながら汎化性を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。