QUICK REVIEW

[論文レビュー] DiracNets: Training Very Deep Neural Networks Without Skip-Connections

Sergey Zagoruyko, Nikos Komodakis|arXiv (Cornell University)|Jun 1, 2017

Advanced Neural Network Applications参考文献 16被引用数 75

ひとこと要約

DiracNets は Dirac 重みパラメータ化を用いて、明示的なスキップ接続なしに非常に深いプレーンネットワークを訓練し、ほぼ ResNet/WRN の性能を達成し、推論時には単純な畳み込み-ReLU チェーンへ折り畳み可能である。

ABSTRACT

Deep neural networks with skip-connections, such as ResNet, show excellent performance in various image classification benchmarks. It is though observed that the initial motivation behind them - training deeper networks - does not actually hold true, and the benefits come from increased capacity, rather than from depth. Motivated by this, and inspired from ResNet, we propose a simple Dirac weight parameterization, which allows us to train very deep plain networks without explicit skip-connections, and achieve nearly the same performance. This parameterization has a minor computational cost at training time and no cost at all at inference, as both Dirac parameterization and batch normalization can be folded into convolutional filters, so that network becomes a simple chain of convolution-ReLU pairs. We are able to match ResNet-1001 accuracy on CIFAR-10 with 28-layer wider plain DiracNet, and closely match ResNets on ImageNet. Our parameterization also mostly eliminates the need of careful initialization in residual and non-residual networks. The code and models for our experiments are available at https://github.com/szagoruyko/diracnets

研究の動機と目的

画像分類におけるスキップ接続と深層化の限界を理解する。
Dirac 重みパラメータ化を提案し、非常に深いプレーンネットワークが端から端まで訓練可能にする。
CIFAR と ImageNet に対する DiracNet の性能を ResNet および WRN と比較して示す。
Dirac パラメータ化が初期化とどのように相互作用し、推論のために折り畳むことができるかを示す。

提案手法

重み W_hat = diag(a)I + W (オプションで W_hat = diag(a)I + diag(b)W_norm の重み正規化あり) の Dirac パラメータ化を導入。
a ~ 1、b ~ 0.1 で初期化; W は N(0,1) から初期化; a, b に対する L2 正則化はなし。
重み正規化と折り畳みを用いて非常に深いプレーンネットを訓練; CIFAR と ImageNet で ResNet/WRN と比較。
Dirac パラメータ化を ResNet に関連付け、暗黙のスキップ接続を示し、非線形性の順序を論じる。
CIFAR で plain と DiracNet 変種を評価し、ImageNet で DiracNet-18/34 対 ResNet-18/34。
DiracNet が層ごとの事前訓練なしでエンドツーエンド訓練が可能で、推論時には VGG ライクのチェーンへ折り畳めることを示す。

実験結果

リサーチクエスチョン

RQ1Dirac パラメータ化は Explicit なスキップ接続なしで数百層の訓練を可能にするか。
RQ2DiracNet の性能は CIFAR-10/100 および ImageNet で ResNet および Wide ResNet に比べてどうか。
RQ3Dirac パラメータ化は初期化の影響を減らし、テスト時に単純な畳み込み-ReLU チェーンへ折り畳むことを可能にするか。
RQ4ネットワークの幅と深さが DiracNets に与える影響は、従来の残差ネットワークとどう異なるか。

主な発見

DiracNets は非常に深いプレーンネットワーク（数百層）を競争力のある性能で訓練可能である。
DiracNet-28-10 は CIFAR-10/100 で 4.75% top-1 / 21.54% top-5、パラメータ数は 36.5M で、WRN-28-10 にほぼ近い。
CIFAR ではプレーン DiracNets は他のプレーンネットワークよりも優れ、ResNet/WRN の性能に近づく; 深い DiracNets はプレーンネットが失敗するところで精度を高める。
ImageNet では DiracNet-18/34 は ResNet-18/34 にほぼ匹敵する（パラメータ数は同程度）。
Dirac パラメータ化はこのフレームワークを用いる場合、ResNet ライクなネットの初期化の慎重さを排除する。
Dirac パラメータ化されたフィルタは単一の重みベクトルへ折り畳むことができ、推論時には畳み込み-ReLU ブロックの簡単な VGG 風チェーンを得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。