[論文レビュー] Wide Residual Networks
この論文は、残差ブロックを拡張するWRNが、非常に深い薄いResNetsを上回る可能性を示し、CIFAR、SVHN、COCO、ImageNetで、はるかに少ない層数と高速な訓練で最先端の結果を達成する。
Deep residual networks were shown to be able to scale up to thousands of layers and still have improving performance. However, each fraction of a percent of improved accuracy costs nearly doubling the number of layers, and so training very deep residual networks has a problem of diminishing feature reuse, which makes these networks very slow to train. To tackle these problems, in this paper we conduct a detailed experimental study on the architecture of ResNet blocks, based on which we propose a novel architecture where we decrease depth and increase width of residual networks. We call the resulting network structures wide residual networks (WRNs) and show that these are far superior over their commonly used thin and very deep counterparts. For example, we demonstrate that even a simple 16-layer-deep wide residual network outperforms in accuracy and efficiency all previous deep residual networks, including thousand-layer-deep networks, achieving new state-of-the-art results on CIFAR, SVHN, COCO, and significant improvements on ImageNet. Our code and models are available at https://github.com/szagoruyko/wide-residual-networks
研究の動機と目的
- 残差ブロックのアーキテクチャが深さを超えて性能にどのように影響するかを調査する。
- ブロックの拡幅が、より深いネットワークよりも精度と訓練効率を向上させるかを評価する。
- 幅広い残差ブロック内での正則化手法(ドロップアウト)を探る。
- WRNsを用いてCIFAR、SVHN、COCO、ImageNetで最先端の結果を示す。
提案手法
- 拡幅係数kとブロック深さlを持つ深い残差ネットワークを定義する。
- 最適な構造を特定するため、ブロックタイプと構成(B(3,3), B(3,1,3) など)を比較する。
- おおむね定数パラメータ数の下でlとkを変化させて深さと幅を比較検討する。
- 幅広いネットワークを正則化するために残差ブロック内にドロップアウトを導入する。
- CIFAR-10/100、SVHN、ImageNet、COCOで標準化された訓練プロトコルを用いて評価する。
実験結果
リサーチクエスチョン
- RQ1残差ブロックの拡幅はResNetsの深さを増やすよりも性能を効果的に向上させ得るか?
- RQ2固定されたパラメータ数の下で最高性能を発揮する最適なブロック深さlと拡幅係数kの組み合わせは何か?
- RQ3残差ブロック内のドロップアウトは、データセット全体で幅広いネットワークに正則化効果を提供するか?
- RQ4CIFAR、SVHN、ImageNet、COCOにおけるWRNの従来の薄いResNetに対する性能はどうか?
主な発見
| 深さ | k | # パラメータ | CIFAR-10 | CIFAR-100 |
|---|---|---|---|---|
| 40 | 1 | 0.6M | 6.85 | 30.89 |
| 40 | 2 | 2.2M | 5.33 | 26.04 |
| 40 | 4 | 8.9M | 4.97 | 22.89 |
| 40 | 8 | 35.7M | 4.66 | - |
| 28 | 10 | 36.5M | 4.17 | 20.50 |
| 28 | 12 | 52.5M | 4.33 | 20.43 |
| 22 | 8 | 17.2M | 4.38 | 21.22 |
| 22 | 10 | 26.8M | 4.44 | 20.75 |
| 16 | 8 | 11.0M | 4.81 | 22.07 |
| 16 | 10 | 17.1M | 4.56 | 21.59 |
- 幅を増やすと、同等のパラメータ数を前提に、広い残差ネットワークは一貫して性能を向上させる。
- CIFAR-10/100では、WRN-40-4とWRN-28-10は、層数が少なく訓練が速い薄く深いモデルよりも性能が高い。
- ImageNetではResNet-50をWRN-50-2-bottleneckに拡幅すると、ResNet-152よりもはるかに少ない層で精度が向上する。
- 残差ブロック内のドロップアウトはCIFARとSVHNでテスト誤差の有意な低減を生み出し、幅に基づく利点を補完する。
- WRNアーキテクチャはCIFAR-10、CIFAR-100、SVHN、COCOで最先端の結果を達成し、ImageNetでは訓練時間の短縮とともに競合的な結果を得ている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。