QUICK REVIEW

[論文レビュー] Residual Networks are Exponential Ensembles of Relatively Shallow Networks.

Andreas Veit, Michael J. Wilber|arXiv (Cornell University)|May 20, 2016

Cell Image Analysis Techniques参考文献 14被引用数 78

ひとこと要約

この論文は、残差ネットワーク（ResNets）が、全深さにわたる勾配の維持によってではなく、比較的浅いネットワークの指数的アンサンブルとして機能していることを明らかにしている。大規模な損傷実験により、推論時におけるアンサンブル行動が確認され、勾配の流れの大部分が短いネットワーク（10〜34層）に起因していることが示され、深さの重要性よりも内部アンサンブルの多様性（implicit multiplicity）——内部アンサンブルのサイズ——が重要であることが示唆される。これは、残差学習に関する従来の見解に挑戦するものである。

ABSTRACT

In this work, we introduce a novel interpretation of residual networks showing they are exponential ensembles. This observation is supported by a large-scale lesion study that demonstrates they behave just like ensembles at test time. Subsequently, we perform an analysis showing these ensembles mostly consist of networks that are each relatively shallow. For example, contrary to our expectations, most of the gradient in a residual network with 110 layers comes from an ensemble of very short networks, i.e., only 10-34 layers deep. This suggests that in addition to describing neural networks in terms of width and depth, there is a third dimension: multiplicity, the size of the implicit ensemble. Ultimately, residual networks do not resolve the vanishing gradient problem by preserving gradient flow throughout the entire depth of the network - rather, they avoid the problem simply by ensembling many short networks together. This insight reveals that depth is still an open research question and invites the exploration of the related notion of multiplicity.

研究の動機と目的

残差ネットワークの標準的なアーキテクチャ的記述を超えて、その暗黙的なアンサンブル性に焦点を当てた再解釈を行う。
ResNetsが推論時においてアンサンブルのように振る舞うかどうか、特に勾配寄与度の観点から調査すること。
アンサンブル内の個々のネットワークの有効な深さを特定し、全深さにわたる勾配の流れに関する仮説に挑戦すること。
幅と深さと並んで、モデル性能に与える影響を検討する新たな次元として、多様性（implicit ensemble size）の役割を調査すること。

提案手法

残差ブロックを体系的に削除することで、テスト精度に与える影響を測定する大規模な損傷実験を実施し、アンサンブル行動をシミュレートする。
個々の残差ブロックが全体の勾配に与える寄与度を測定することで、ネットワーク内の勾配の流れを分析する。
各パスが異なる残差ブロックの組み合わせに対応する、浅いサブネットワークの指数的アンサンブルとしてResNetsをモデル化する。
アブレーションと勾配アトリビューションを用いて、特に短いパスに注目し、最終予測に最も寄与するサブネットワークを同定する。
多くの浅いネットワークの乗算的組み合わせによって生じる有効なモデル容量の理論的・実験的根拠を導出する。

実験結果

リサーチクエスチョン

RQ1残差ネットワークは推論時においてアンサンブルのように振る舞うか？もしそうなら、そのアンサンブルの性質は何か？
RQ2ResNetアンサンブル内の個々のネットワークの有効な深さは何か？また、全ネットワークの深さと比べてどう異なるか？
RQ3深層ResNetsにおける勾配の流れは、全深さにわたるものではなく、非常に短いサブネットワークに起因する程度はどの程度か？
RQ4多様性（暗黙のアンサンブルサイズ）という概念は、幅と深さといった従来のアーキテクチャ的次元と比較して、モデル性能に与える影響はいかほどか？

主な発見

大規模な損傷実験により、推論時におけるResNetsの動作が、浅いネットワークの指数的アンサンブルであることが確認された。
110層のResNetにおいて、勾配の流れの大部分は、全深さではなく10〜34層のサブネットワークに起因している。
有効なモデル容量は、深く単一パスの計算ではなく、多数の短い浅いパスに支配されている。
ResNetsは、全深さにわたる勾配の流れを維持することで消失勾配問題を解決しているのではなく、多くの短いネットワークを暗黙的にアンサンブルすることで回避している。
多様性——暗黙のアンサンブルサイズ——という概念が、ニューラルネットワーク設計における、これまで無視されてきた重要な次元として浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。