[論文レビュー] DiracNets: Training Very Deep Neural Networks Without Skip-Connections
DiracNets は Dirac 重みパラメータ化を用いて、明示的なスキップ接続なしに非常に深いプレーンネットワークを訓練し、ほぼ ResNet/WRN の性能を達成し、推論時には単純な畳み込み-ReLU チェーンへ折り畳み可能である。
Deep neural networks with skip-connections, such as ResNet, show excellent performance in various image classification benchmarks. It is though observed that the initial motivation behind them - training deeper networks - does not actually hold true, and the benefits come from increased capacity, rather than from depth. Motivated by this, and inspired from ResNet, we propose a simple Dirac weight parameterization, which allows us to train very deep plain networks without explicit skip-connections, and achieve nearly the same performance. This parameterization has a minor computational cost at training time and no cost at all at inference, as both Dirac parameterization and batch normalization can be folded into convolutional filters, so that network becomes a simple chain of convolution-ReLU pairs. We are able to match ResNet-1001 accuracy on CIFAR-10 with 28-layer wider plain DiracNet, and closely match ResNets on ImageNet. Our parameterization also mostly eliminates the need of careful initialization in residual and non-residual networks. The code and models for our experiments are available at https://github.com/szagoruyko/diracnets
研究の動機と目的
- 画像分類におけるスキップ接続と深層化の限界を理解する。
- Dirac 重みパラメータ化を提案し、非常に深いプレーンネットワークが端から端まで訓練可能にする。
- CIFAR と ImageNet に対する DiracNet の性能を ResNet および WRN と比較して示す。
- Dirac パラメータ化が初期化とどのように相互作用し、推論のために折り畳むことができるかを示す。
提案手法
- 重み W_hat = diag(a)I + W (オプションで W_hat = diag(a)I + diag(b)W_norm の重み正規化あり) の Dirac パラメータ化を導入。
- a ~ 1、b ~ 0.1 で初期化; W は N(0,1) から初期化; a, b に対する L2 正則化はなし。
- 重み正規化と折り畳みを用いて非常に深いプレーンネットを訓練; CIFAR と ImageNet で ResNet/WRN と比較。
- Dirac パラメータ化を ResNet に関連付け、暗黙のスキップ接続を示し、非線形性の順序を論じる。
- CIFAR で plain と DiracNet 変種を評価し、ImageNet で DiracNet-18/34 対 ResNet-18/34。
- DiracNet が層ごとの事前訓練なしでエンドツーエンド訓練が可能で、推論時には VGG ライクのチェーンへ折り畳めることを示す。
実験結果
リサーチクエスチョン
- RQ1Dirac パラメータ化は Explicit なスキップ接続なしで数百層の訓練を可能にするか。
- RQ2DiracNet の性能は CIFAR-10/100 および ImageNet で ResNet および Wide ResNet に比べてどうか。
- RQ3Dirac パラメータ化は初期化の影響を減らし、テスト時に単純な畳み込み-ReLU チェーンへ折り畳むことを可能にするか。
- RQ4ネットワークの幅と深さが DiracNets に与える影響は、従来の残差ネットワークとどう異なるか。
主な発見
- DiracNets は非常に深いプレーンネットワーク(数百層)を競争力のある性能で訓練可能である。
- DiracNet-28-10 は CIFAR-10/100 で 4.75% top-1 / 21.54% top-5、パラメータ数は 36.5M で、WRN-28-10 にほぼ近い。
- CIFAR ではプレーン DiracNets は他のプレーンネットワークよりも優れ、ResNet/WRN の性能に近づく; 深い DiracNets はプレーンネットが失敗するところで精度を高める。
- ImageNet では DiracNet-18/34 は ResNet-18/34 にほぼ匹敵する(パラメータ数は同程度)。
- Dirac パラメータ化はこのフレームワークを用いる場合、ResNet ライクなネットの初期化の慎重さを排除する。
- Dirac パラメータ化されたフィルタは単一の重みベクトルへ折り畳むことができ、推論時には畳み込み-ReLU ブロックの簡単な VGG 風チェーンを得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。