[論文レビュー] Orthogonal Weight Normalization: Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Networks
論文は深層ネットワークにおける直交長方形ウェイトマトリクスの学習を Optimization over Multiple Dependent Stiefel Manifolds (OMDSM) として最適化することを提案し、proxy パラメータによる直交ウェイト正規化を提案して、Orthogonal Linear Module を導入し、プロトコルを変更することなく CNNs を改善する。
Orthogonal matrix has shown advantages in training Recurrent Neural Networks (RNNs), but such matrix is limited to be square for the hidden-to-hidden transformation in RNNs. In this paper, we generalize such square orthogonal matrix to orthogonal rectangular matrix and formulating this problem in feed-forward Neural Networks (FNNs) as Optimization over Multiple Dependent Stiefel Manifolds (OMDSM). We show that the rectangular orthogonal matrix can stabilize the distribution of network activations and regularize FNNs. We also propose a novel orthogonal weight normalization method to solve OMDSM. Particularly, it constructs orthogonal transformation over proxy parameters to ensure the weight matrix is orthogonal and back-propagates gradient information through the transformation during training. To guarantee stability, we minimize the distortions between proxy parameters and canonical weights over all tractable orthogonal transformations. In addition, we design an orthogonal linear module (OLM) to learn orthogonal filter banks in practice, which can be used as an alternative to standard linear module. Extensive experiments demonstrate that by simply substituting OLM for standard linear module without revising any experimental protocols, our method largely improves the performance of the state-of-the-art networks, including Inception and residual networks on CIFAR and ImageNet datasets. In particular, we have reduced the test error of wide residual network on CIFAR-100 from 20.04% to 18.61% with such simple substitution. Our code is available online for result reproduction.
研究の動機と目的
- 深層ネットワークにおける正則化と安定した最適化の動機づけ。
- DNNにおける直交フィルターの学習を Optimization over Multiple Dependent Stiefel Manifolds (OMDSM) として定式化。
- 直交化変換を逆伝播できる安定した解法である Orthogonal Weight Normalization を開発。
- 実践で標準的な線形層を置換する Orthogonal Linear Module (OLM) を導入。
- CIFAR および ImageNet のデータセットで MLP と CNN の性能向上を示す。
提案手法
- 各層で W^l を直交とし、W^l ∈ O^{n_l x d_l} を形成し OMDSM を構成する。
- W^l を W^l = φ(V^l) と再パラメータ化し、φ が代理パラメータ V^l を直交する W^l に対応付ける。
- V^l をセンタリングし、共分散 Σ の固有分解を用いて W^l = D Λ^{-1/2} D^T (V^l - c 1_d^T) により φ を計算する。
- 固有分解の導関数を含む行列微分計算を用いて φ を介した勾配をバックプロパゲートする。
- W = φ(V) かつ W W^T = I を満たす制約の下で歪み tr((W - V_c)(W - V_c)^T) を最小化し、学習を安定化させる(OLM)
- n > d の場合、グループごとの直交化を導入することで計算を削減する。Weights を N_G のグループに分割し、グループ内で直交化を行う。
- 畳み込み層は W^C を 2D に展開して同じ直交化を適用する。グループベースの戦略が計算を削減する。
- 前方/後方伝播を φ 変換で実装し、推論時には W を格納する Orthogonal Linear Module (OLM) を提案する。
実験結果
リサーチクエスチョン
- RQ1OMDSM の下で深層前方伝播ネットワークにおいて直交長方形ウェイトマトリクスを効果的に学習できるか。
- RQ2proxy パラメータ直交化を用いた OMDSM の解法はリーマン最適化法と比較して安定かつスケーラブルな学習を提供するか。
- RQ3標準的な線形モジュールを OLM に置換すると CNN アーキテクチャの最適化速度と汎化性にどのような影響があるか。
- RQ4大規模 CNN への OMDSM の導入にはどのような実用的戦略(例: グループベースの直交化、BN/Adam との互換性)は有用か。
主な発見
- リーマン幾何学的最適化法は OMDSM に対して不安定または収束が遅い一方、OLM は安定かつ高速な最適化を達成する。
- OLM は活性化分布を安定化させ、勾配ノルムを維持することで深さと条件づけの訓練を助ける。
- 標準的な線形モジュールを OLM に置換することで、CNN アーキテクチャとデータセット全体で一貫した性能向上を達成する。
- CIFAR-100 の Wide ResNet で、OLM を用いた場合のテスト誤差が 20.04% から 18.61% に改善(CIFAR-10 でも関連する改善)。
- VGG 系ネットワークを OLM(および派生形)とともに CIFAR-10/100 で最先端または競合的な結果を達成。例として WRN-28-10-OLM は CIFAR-10 で 3.73%、CIFAR-100 で 18.76% を達成。
- BN-Inception に OLM を組み合わせると CIFAR-10/100 のベースラインを上回る結果となり、例えば CIFAR-100 は plain BN-Inception から 24.87% から 22.02% に低下。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。