[論文レビュー] Wider or Deeper: Revisiting the ResNet Model for Visual Recognition
本論文は ResNet を、より浅いサブネットワークの線形に成長するアンサンブルとして再解釈し、ImageNet 上ではるかに深いモデルを上回る、浅くて幅広い残差アーキテクチャを提案し、セマンティックセグメンテーションタスクへの強い転移性を示す。
The trend towards increasingly deep neural networks has been driven by a general observation that increasing depth increases the performance of a network. Recently, however, evidence has been amassing that simply increasing depth may not be the best way to increase performance, particularly given other limitations. Investigations into deep residual networks have also suggested that they may not in fact be operating as a single deep network, but rather as an ensemble of many relatively shallow networks. We examine these issues, and in doing so arrive at a new interpretation of the unravelled view of deep residual networks which explains some of the behaviours that have been observed experimentally. As a result, we are able to derive a new, shallower, architecture of residual networks which significantly outperforms much deeper models such as ResNet-200 on the ImageNet classification dataset. We also show that this performance is transferable to other problem domains by developing a semantic segmentation approach which outperforms the state-of-the-art by a remarkable margin on datasets including PASCAL VOC, PASCAL Context, and Cityscapes. The architecture that we propose thus outperforms its comparators, including very deep ResNets, and yet is more efficient in memory use and sometimes also in training time. The code and models are available at https://github.com/itijyou/ademxapp
研究の動機と目的
- 深い残差ネットワークと有効な深さの解明された見方を説明する。
- 深さのある対になるモデルを上回る、浅くて幅広い残差アーキテクチャを提案・評価する。
- 提案したアーキテクチャのセマンティックセグメンテーションのベンチマークへの転移性を示す。
- 提案ネットワークのメモリ使用量と訓練効率を、非常に深い ResNets と比較して評価する。
提案手法
- ショートカット接続を伴う残差ユニットの解きほぐされた有効深度分析を提供する。
- 残差ユニットごとに2つの3x3畳み込みと選択的ボトルネックを備えた、比較的浅いネットワークの系を設計する。
- ImageNet 上で、深い ResNet や Inception 系と比較して Top-1/Top-5 精度とスループットを評価する。
- 過度なマルチスケール監視を用いず、ダウンサンプリング、拡張、分類器構造を変更して、分類ネットワークをセマンティックセグメンテーションに適応させる。
- MXNet を用い、マルチGPU環境で訓練およびファインチューニングを行い、メモリ使用量と訓練速度を報告する。
実験結果
リサーチクエスチョン
- RQ1残差ネットワークは浅いサブネットワークの指数的アンサンブルとして機能するのか、それとも線形に成長するアンサンブルとして機能するのか。
- RQ2浅くて幅広い残差アーキテクチャは、メモリ効率を維持しつつ ImageNet でより深い ResNets を上回ることができるか。
- RQ3提案されたアーキテクチャは、重い後処理を用いずに PASCAL VOC、Cityscapes、ADE20K といったセマンティックセグメンテーションのベンチマークへどれだけ転移できるか。
主な発見
| 方法 | 深さ | 入力サイズ | top-1 | top-5 | 速度 |
|---|---|---|---|---|---|
| VGG16 [28] | 16 | 224 | 28.1 | 9.3 | – |
| ResNet-50 [12] | 50 | 224 | 23.5 | 6.8 | 75.2 |
| ResNet-101 [12] | 101 | 224 | 22.1 | 6.1 | 56.8 |
| ResNet-152 [12] | 152 | 224 | 21.8 | 5.8 | 41.8 |
| ResNet-152 [13] | 152 | 224 | 21.3 | 5.5 | – |
| ResNet-200 [13] | 200 | 224 | 20.7 | 5.3 | – |
| Inception-v4 [30] | 76 | 299 | 20.0 | 5.0 | – |
| Inception-ResNet-v2 [30] | 96 | 299 | 19.9 | 4.9 | – |
| 56-1-1-1-1-9-1-1, Model F | 34 | 56 | 25.2 | 7.8 | 113.5 |
| 112-1-1-1-1-5-1-1, Model E | 26 | 112 | 22.3 | 6.2 | 97.3 |
| 112-1-1-1-1-9-1-1, Model D | 34 | 112 | 22.1 | 6.0 | 81.2 |
| 112-1-1-1-1-13-1-1, Model C | 42 | 112 | 21.8 | 5.9 | 69.2 |
| 224-0-1-1-1-1-1-1, Model B | 20 | 224 | 21.0 | 5.5 | 43.3 |
| 224-0-3-3-6-3-1-1, Model A | 38 | 224 | 19.2 | 4.7 | 15.7 |
- 浅くて幅広い残差アーキテクチャは、ImageNet において非常に深い ResNets(例:ResNet-152、ResNet-200)を Top-1/Top-5 精度の点で上回ることができる。
- 約十七個程度の残差ユニットを持つネットワークは、より深いモデルを上回りつつメモリ効率が高い。
- 提案されたネットワークの特徴を用いたセマンティックセグメンテーションは、PASCAL VOC、Cityscapes、ADE20K でマルチスケールや CRF の後処理を用いずに最先端に近い結果を達成する。
- 入力サイズとダウンサンプリング戦略に依存して、浅いアーキテクチャでメモリ使用量と訓練速度が向上する可能性がある。
- 性能は適切な深さ設計と過度な深層化を避けることに相関し、エンドツーエンドの訓練可能性を重視する幅対深さのトレードオフを支持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。