Skip to main content
QUICK REVIEW

[論文レビュー] Deep Convolutional Neural Networks with Merge-and-Run Mappings

Li-Ming Zhao, Jingdong Wang|arXiv (Cornell University)|Nov 23, 2016
Advanced Neural Network Applications参考文献 38被引用数 34
ひとこと要約

本稿では、マージ&ラン写像を用いて残差ブランチを並列化することで残差ネットワークを改善する、新たなアーキテクチャであるDeep Merge-and-Run Neural Networks(DMRNet)を提案する。入力を平均化する(マージ)と、その平均値を各ブランチの出力に加算する(ラン)という二段階の処理により、ネットワークの深さを低減し、線形の冪等変換によって情報の流れを向上させる。この手法により、3.57%のCIFAR-10テスト誤差、1.51%のSVHNテスト誤差を達成し、同等のパrameter数を持つResNetsを上回る最先端の性能を実現した。

ABSTRACT

A deep residual network, built by stacking a sequence of residual blocks, is easy to train, because identity mappings skip residual branches and thus improve information flow. To further reduce the training difficulty, we present a simple network architecture, deep merge-and-run neural networks. The novelty lies in a modularized building block, merge-and-run block, which assembles residual branches in parallel through a merge-and-run mapping: Average the inputs of these residual branches (Merge), and add the average to the output of each residual branch as the input of the subsequent residual branch (Run), respectively. We show that the merge-and-run mapping is a linear idempotent function in which the transformation matrix is idempotent, and thus improves information flow, making training easy. In comparison to residual networks, our networks enjoy compelling advantages: they contain much shorter paths, and the width, i.e., the number of channels, is increased. We evaluate the performance on the standard recognition tasks. Our approach demonstrates consistent improvements over ResNets with the comparable setup, and achieves competitive results (e.g., $3.57\%$ testing error on CIFAR-$10$, $19.00\%$ on CIFAR-$100$, $1.51\%$ on SVHN).

研究の動機と目的

  • 非常に深いネットワークにおける学習の難易度を、情報の流れの向上と有効パスの短縮によって軽減すること。
  • 残差ブランチを並列に構成する新しいモジュール型の基本ブロック「マージ&ランブロック」を提案すること。これにより、ネットワークの幅を拡大し、深さを低減する。
  • マージ&ラン写像が線形の冪等関数であることを示し、勾配の高速伝搬と安定した学習を可能にすること。
  • マージ&ラン写像による幅の拡大が、非常に深いネットワークにおいて深さの増加やInceptionやDenseNetのような他の幅拡大手法と比較して、より効果的であることを検証すること。
  • マージ&ラン写像による残差ブランチ間の相互作用が、単なるスキップ接続を越えた表現学習の向上を実現することを示すこと。

提案手法

  • マージ&ランブロックを導入し、入力を二段階の写像(マージ:入力を平均化、ラン:平均値を各ブランチの出力に加算)で処理することで、複数の残差ブランチを並列に処理する。
  • マージ&ラン写像を冪等行列を有する線形変換としてモデル化し、繰り返し適用しても出力が変化しないことを保証することで、情報の流れの安定性を確保する。
  • 変換行列が冪等的(M² = M)であることを理論的に導出することで、高速な勾配逆伝播と消失勾配問題の緩和を理論的に保証する。
  • 複数のマージ&ランブロックをスタックすることで深いネットワークを構築し、逐次的な残差ブロックと比較して顕著に短い有効パスを実現する。
  • CIFAR-10、CIFAR-100、SVHN、ImageNetといった標準ベンチマークを用いて、本手法とResNetsおよびその他の変種を実験的に比較する。
  • K本のブランチ構成に一般化するため、マージ&ラン写像を1/Kスケーリングを伴うK×Kブロック行列に拡張する。

実験結果

リサーチクエスチョン

  • RQ1新規のマージ&ラン写像を用いて残差ブランチを並列に構成することで、逐次的な残差ブロックと比較して学習の難易度が低下し、性能が向上するか?
  • RQ2マージ&ラン写像が線形の冪等関数として機能することで、深層ネットワークにおける情報および勾配の流れが向上するか?
  • RQ3マージ&ラン写像による性能向上は、表現学習の向上によるものか、正則化効果によるものか?
  • RQ4マージ&ラン写像による幅の拡大は、深さの増加やInceptionやDenseNetのような他の幅拡大手法と比較して、どのように優れているか?
  • RQ5マージ&ラン写像は2本以上の残差ブランチに一般化可能であり、そのような構成でも性能向上を維持できるか?

主な発見

  • マージ&ラン写像は線形の冪等関数であり、その変換行列はM² = Mを満たす。これにより、安定的かつ効率的な情報および勾配の流れが保証される。
  • DMRNetはCIFAR-10で3.57%のトップ-1テスト誤差を達成し、同じ深さのResNet-101(4.99%)を上回り、この設定で新たな最先端を樹立した。
  • CIFAR-100では19.00%のトップ-1誤差を記録し、ResNet-101(23.66%)を上回り、複数の深さ設定において一貫した向上を示した。
  • SVHNでは1.51%のトップ-1誤差を達成し、ResNet-101(2.37%)を顕著に上回り、最先端の結果と同等またはそれを上回った。
  • 訓練誤差および検証誤差の推移から、DMRNetは全エポックにわたりResNet-101を一貫して上回っており、正則化によるものではなく、より優れた一般化性能と表現学習能力を示している。
  • アブレーションスタディの結果、マージ&ラン写像による相互作用が有益であることが確認された。同じアーキテクチャであっても、マージ&ラン写像を用いたDMRNetは、単にアイデンティティマッピングを用いるネットワークよりも優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。