QUICK REVIEW

[論文レビュー] Residual Networks Behave Like Ensembles of Relatively Shallow Networks

Andreas Veit, Michael J. Wilber|arXiv (Cornell University)|May 20, 2016

Advanced Neural Network Applications参考文献 17被引用数 600

ひとこと要約

論文は残差ネットワークを長さが異なる多数のパスの集合として再定式化し、短いパスを用いて訓練し、これらのパスは相互依存性が限定されたエンサンブルのように振る舞う；長いパスは訓練時の勾配にほとんど寄与しない。

ABSTRACT

In this work we propose a novel interpretation of residual networks showing that they can be seen as a collection of many paths of differing length. Moreover, residual networks seem to enable very deep networks by leveraging only the short paths during training. To support this observation, we rewrite residual networks as an explicit collection of paths. Unlike traditional models, paths through residual networks vary in length. Further, a lesion study reveals that these paths show ensemble-like behavior in the sense that they do not strongly depend on each other. Finally, and most surprising, most paths are shorter than one might expect, and only the short paths are needed during training, as longer paths do not contribute any gradient. For example, most of the gradient in a residual network with 110 layers comes from paths that are only 10-34 layers deep. Our results reveal one of the key characteristics that seem to enable the training of very deep networks: Residual networks avoid the vanishing gradient problem by introducing short paths which can carry gradient throughout the extent of very deep networks.

研究の動機と目的

残差ネットワークを1つの深い鎖ではなく、複数のパスの集合として解きほぐした見方を提案する。
残差ネットワークのパスが独立しているか、エンサンブルのような挙動を示すかを調べる。
訓練中に勾配フローに寄与するパスの長さを特定し、それが非常に深いネットワークの訓練にどう影響するかを明らかにする。

提案手法

残差ネットワークを解きほぐして、長さの異なる明示的なパスの集合として表現する。
勾配ブロックを削除または再配置して、パスの独立性とエンサンブル様の挙動を検証する病変研究を行う。
長さ分布を分析し、nブロックネットワークで中心が n/2 に近い二項分布を示す。
異なる長さのパスからの勾配フローを測定し、効果的な訓練パス（短いパス）を特定する。
効果的なパスのみを用いてネットワークを再訓練し、長いパスが性能に必要かを検証する。

実験結果

リサーチクエスチョン

RQ1残差ネットワークのパスは互いに強く依存しているのか、それとも冗長性を示すのか？
RQ2残差パスの集合はエンサンブルのように振る舞い、パスの追加や削除とともに性能が滑らかに変化するか？
RQ3非常に深い残差ネットワークにおいて、訓練中に勾配フローに最大に寄与するパスの長さはどれか？
RQ4強い性能を達成するのに長いパスは必要か、それとも訓練は短く効果的なパスに依存できるか？

主な発見

残差ネットワークで単一の残差モジュールを削除しても性能への影響は最小であり、従来のネットワークのように性能が崩壊することはない。
複数のモジュールを削除するかモジュールの順序を入れ替えると誤差が滑らかに増加し、パス集合のエンサンブル様挙動を示している。
大多数のパス長は二項分布に従い、パスの大半はネットワーク深度の半分付近である。ただし訓練中の勾配は主に短いパスから発生する（54ブロックネットワークでおおよそ5–17ブロック）。
長いパスは勾配にほとんど寄与せず、訓練には必要ない。効果的な短いパスのみで訓練したネットワークは、完全モデルと同等の性能を達成する。
ダウンサンプリングブロックを削除しても影響は小さく、残差ネットワークは1つの逐次パスよりも複数の parall パスに依存していることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。