QUICK REVIEW

[論文レビュー] Can We Gain More from Orthogonality Regularizations in Training Deep\n CNNs?

Nitin Bansal, Xiaohan Chen|arXiv (Cornell University)|Oct 22, 2018

Advanced Neural Network Applications参考文献 29被引用数 157

ひとこと要約

本論文は CNN の plug-and-play 正交正則化（SO, DSO, MC, SRIP）を導入し、SRIP が CIFAR、ImageNet、SVHN の ResNet、WideResNet、ResNeXt で一貫して精度と収束を改善することを示す。

ABSTRACT

This paper seeks to answer the question: as the (near-) orthogonality of\nweights is found to be a favorable property for training deep convolutional\nneural networks, how can we enforce it in more effective and easy-to-use ways?\nWe develop novel orthogonality regularizations on training deep CNNs, utilizing\nvarious advanced analytical tools such as mutual coherence and restricted\nisometry property. These plug-and-play regularizations can be conveniently\nincorporated into training almost any CNN without extra hassle. We then\nbenchmark their effects on state-of-the-art models: ResNet, WideResNet, and\nResNeXt, on several most popular computer vision datasets: CIFAR-10, CIFAR-100,\nSVHN and ImageNet. We observe consistent performance gains after applying those\nproposed regularizations, in terms of both the final accuracies achieved, and\nfaster and more stable convergences. We have made our codes and pre-trained\nmodels publicly available:\nhttps://github.com/nbansal90/Can-we-Gain-More-from-Orthogonality.\n

研究の動機と目的

重み行列の近似正交性を強制することが、トレーニングを安定化させ、深層 CNN の性能を向上させるかを動機づけ、検討する。
異なる定式化を通じて、正方形および長方形の重み行列の正交性を強制するいくつかの正則化項を提案する。
標準的な視覚データセット上で、最先端の CNN アーキテクチャに対するこれらの正則化の有効性を評価する。
ネットワークアーキテクチャを変更せずに、これらの plug-and-play 正則化を統合する実践的な指針を提供する。

提案手法

Soft Orthogonality (SO)、Double Soft Orthogonality (DSO)、Mutual Coherence (MC)、Spectral RIP (SRIP) の4つの正則化を導出する。
SO は ||W^T W - I||_F^2 を最小化し、DSO は ||W^T W - I||_F^2 + ||W W^T - I||_F^2 を最小化する。
MC は ||W^T W - I||_∞ を最小化し、列間コヒーレンスを抑制する。
SRIP は (W^T W - I) のスペクトルノルムを最小化して特異値を1に揃え、計算効率のためにパワーイテレーションに基づく近似を用いる。
トレーニング戦略として scheme-change を採用し、初期の安定化と後期の柔軟性のバランスをとるためにトレーニング中に正則化強度を低減する。
ResNet、WideResNet、ResNeXt を CIFAR-10/100、ImageNet、SVHN で評価し、SRIP を SR、OMDSM、Jacobian-based 正則化と比較する。

Figure 1: Validation curves during training for ResNet-110. Top: CIFAR-10; Bottom: CIFAR-100;

実験結果

リサーチクエスチョン

RQ1正交正則化は深層 CNN のトレーニング安定性と最終精度を向上させるか？
RQ2どの正則化定式化（SO、DSO、MC、SRIP）が性能と計算コストの最良のトレードオフを提供するか？
RQ3SRIP は ImageNet のような大規模データセットで、既存のスペクトル的またはハード制約正交性法を上回るか？
RQ4scheme-change（動的正則化強度）は正交正則化を用いたトレーニングに有益か？

主な発見

モデル	正則化手法	CIFAR-10	CIFAR-100
ResNet-110	None	7.04*	25.42*
ResNet-110	SO	6.78	25.01
ResNet-110	DSO	7.04	25.83
ResNet-110	MC	6.97	25.43
ResNet-110	SRIP	6.55	25.14
Wide ResNet 28-10	None	4.16*	20.50*
Wide ResNet 28-10	SO	3.76	18.56
Wide ResNet 28-10	DSO	3.86	18.21
Wide ResNet 28-10	MC	3.68	18.90
Wide ResNet 28-10	SRIP	3.60	18.19
ResNext 29-8-64	None	3.70*	18.53*
ResNext 29-8-64	SO	3.58	17.59
ResNext 29-8-64	DSO	3.85	19.78
ResNext 29-8-64	MC	3.65	17.62
ResNext 29-8-64	SRIP	3.48	16.99

SRIP は提案された正則化の中で CIFAR-10/100、ImageNet、SVHN のいずれにおいても一貫して最良の性能を示す。
CIFAR-10/100 では、SRIP は Wide ResNet-28-10 で最大 2.31% の top-1 精度向上を、他のモデルではデータセットにより 0.22–0.56% の改善を達成。
SRIP は報告された比較で、スペクトル正則化、硬正交性法、Jacobian-norm アプローチを上回る。
SO は驚くほど堅牢なベースラインであり、DSO は多くの場合不利である。
正則化は初期のトレーニングを加速し、アーキテクチャ変更なしで収束を滑らかにする。 scheme-change（時間とともに正則化を減らす）は最終的な精度を高める。

Can We Gain More from Orthogonality Regularizations in Training Deep\n CNNs?

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。