QUICK REVIEW

[論文レビュー] Multi-Residual Networks: Improving the Speed and Accuracy of Residual Networks

Masoud Abdi, Saeid Nahavandi|arXiv (Cornell University)|Sep 19, 2016

Advanced Neural Network Applications参考文献 34被引用数 40

ひとこと要約

本稿では、深さを増さずに1ブロックあたりの残差関数の数を増やすことで、モデルの多様性と性能を向上させるより広いアーキテクチャであるMulti-Residual Networks (Multi-ResNet) を提案する。モデル並列処理を活用しアンサンブルの挙動を模倣することで、Multi-ResNetは、深さの増加に伴う計算コストの増加を15%まで削減しながら、CIFAR-10で3.73%、CIFAR-100で19.45%という最先端の精度を達成した。

ABSTRACT

In this article, we take one step toward understanding the learning behavior of deep residual networks, and supporting the observation that deep residual networks behave like ensembles. We propose a new convolutional neural network architecture which builds upon the success of residual networks by explicitly exploiting the interpretation of very deep networks as an ensemble. The proposed multi-residual network increases the number of residual functions in the residual blocks. Our architecture generates models that are wider, rather than deeper, which significantly improves accuracy. We show that our model achieves an error rate of 3.73% and 19.45% on CIFAR-10 and CIFAR-100 respectively, that outperforms almost all of the existing models. We also demonstrate that our model outperforms very deep residual networks by 0.22% (top-1 error) on the full ImageNet 2012 classification dataset. Additionally, inspired by the parallel structure of multi-residual networks, a model parallelism technique has been investigated. The model parallelism method distributes the computation of residual blocks among the processors, yielding up to 15% computational complexity improvement.

研究の動機と目的

指数的パス多重性と勾配フローのパターンに基づいて、深層残差ネットワークが浅いネットワークのアンサンブルとして機能するかどうかを調査すること。
深さを増さずに、標準的な深層残差ネットワークを上回る分類精度と計算効率を向上させること。
より広い、浅いアーキテクチャにおける学習の高速化のため、データ並列処理の代替としてモデル並列処理を検討すること。
同じパラメータ数のもとで、深さを増やすのではなく残差関数の多重性を増やすことで性能が向上することを示すこと。

提案手法

1ブロックあたり複数の並列された残差関数を含むマルチ残差ブロックを導入し、入力から出力へのパス数を増加させる。
深さを固定し、多重性を高めたより広いアーキテクチャとしてネットワークを構築する。
各マルチ残差ブロックの計算を2つのGPUに分割し、それぞれに半分の残差関数を割り当てる。
4つのK80 GPUでデータ並列処理を実施し、各GPUの2つのサブGPUで内部的にモデル並列処理を組み合わせたハイブリッド並列処理戦略を採用する。
標準的なSGDを用い、中程度のデータオーグメンテーション（反転/平行移動）を適用し、深層残差ネットワークや最先端のモデルと性能を比較する。
勾配更新とパス寄与度を分析することで、残差ネットワークのアンサンブル的挙動を検証する。

実験結果

リサーチクエスチョン

RQ1深層残差ネットワークは、指数的パス多重性のおかげで、浅いネットワークのアンサンブルとして機能するのか？
RQ21ブロックあたりの残差関数の数を増やすことで、ネットワークの深さを増やすのと比較して、精度向上に効果的なのか？
RQ3マルチ残差ブロックにモデル並列処理を適用することで、より深いネットワークにおけるデータ並列処理と比較して、計算複雑度を低減できるのか？
RQ4有効なパス範囲と多重性の影響は、勾配フローと最適化の安定性にどのような影響を与えるのか？
RQ5同じ数の畳み込み層を有するにもかかわらず、1ブロックあたり複数の残差関数を持つ浅く広いネットワークが、より深く細い対応より優れた性能を示せるのか？

主な発見

Multi-ResNetはCIFAR-10でトップ1誤差率3.73%、CIFAR-100で19.45%を達成し、深層残差ネットワークを含む大多数の既存モデルを上回った。
1ブロックあたり2つの残差関数を持つ101層のMulti-ResNetは、ImageNet 2012で200層のResNetよりもトップ1精度が0.22%優れていた。
中程度のデータオーグメンテーションを適用した場合、アイデンティティマッピングを用いた残差ネットワークと比較して、CIFAR-10で誤差が6%、CIFAR-100で10%低減された。
モデル並列処理により、データ並列処理を用いたより深い残差ネットワークと比較して、計算複雑度を最大15%まで低減できた（GPU間通信オーバーヘッドを考慮しても）。
残差関数の多重性を増やすことで得られる性能向上は、ある閾値n₀を超えた深さの増加を上回り、精度の観点から多重性が深さよりも重要であることが示された。
結果は、残差ネットワークがアンサンブルとして機能していることを支持しており、1層を除去しても影響が少なく、大部分の勾配更新が浅いパスから来ていることが分かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。