QUICK REVIEW

[論文レビュー] Greedy Layerwise Learning Can Scale to ImageNet

Eugene Belilovsky, Michael Eickenberg|arXiv (Cornell University)|Dec 29, 2018

Advanced Neural Network Applications参考文献 52被引用数 24

ひとこと要約

この論文は、ImageNetでエンド・ツー・エンド学習と同等の性能を達成する、グリーディでレイヤーワイズのCNN訓練手法を提案している。各レイヤーを逐次的に、浅い1層またはk層の補助問題を用いて訓練することで、バックプロパゲーションを全レイヤーにわたって行わないまま、AlexNetを上回り、VGG-11と同等の精度を達成している。ReLUや畳み込みなどの単純なアーキテクチャと標準的なコンponentsを活用することで、エンド・ツー・エンド学習に比べて効率的で安定的かつ圧縮可能なモデルを、大規模なビジョンタスクに適応可能にしている。

ABSTRACT

Shallow supervised 1-hidden layer neural networks have a number of favorable properties that make them easier to interpret, analyze, and optimize than their deep counterparts, but lack their representational power. Here we use 1-hidden layer learning problems to sequentially build deep networks layer by layer, which can inherit properties from shallow networks. Contrary to previous approaches using shallow networks, we focus on problems where deep learning is reported as critical for success. We thus study CNNs on image classification tasks using the large-scale ImageNet dataset and the CIFAR-10 dataset. Using a simple set of ideas for architecture and training we find that solving sequential 1-hidden-layer auxiliary problems lead to a CNN that exceeds AlexNet performance on ImageNet. Extending this training methodology to construct individual layers by solving 2-and-3-hidden layer auxiliary problems, we obtain an 11-layer network that exceeds several members of the VGG model family on ImageNet, and can train a VGG-11 model to the same accuracy as end-to-end learning. To our knowledge, this is the first competitive alternative to end-to-end training of CNNs that can scale to ImageNet. We illustrate several interesting properties of these models theoretically and conduct a range of experiments to study the properties this training induces on the intermediate layers.

研究の動機と目的

エンド・ツー・エンドバックプロパゲーションを用いずに、ImageNetのような大規模データセットで高い性能を達成できるかどうかを調査すること。
浅い部分問題を逐次的に訓練することで、標準的なディープラーニングパイプラインと同等の結果を得られるかどうかを特定すること。
レイヤーワイズ訓練が、プログレッシブな線形分離可能性といった望ましい表現特性を保持あるいは強化できるかどうかを調査すること。
スケーラブルでメモリ効率の良い代替訓練手法を開発し、モデル圧縮と並列化の可能性を支援すること。
理解しやすい浅いネットワーク理論に基づき、ディープラーニングのメカニズムを理論的に扱いやすい枠組みで分析できるようにすること。

提案手法

標準的な畳み込みおよびReLUコンponentsを用いて、各CNNレイヤーを、1層またはk層の補助学習問題を解くことで逐次的に訓練する。
各補助問題に対してグローバルな目的関数を用い、個々のレイヤーの関数的挙動を直接指定することで、間接的な勾配信号を避ける。
各レイヤーの訓練後に直ちにモデル圧縮（フィルタープルーニングとファインチューニング）を適用し、パラメータ数を削減し、その後の訓練を高速化する。
空間的ダウンサンプリングおよびアーキテクチャの変更（例：マックスプーリング）を用いて、VGG-11などの標準モデルと互換性を維持する。
最終レイヤーを、ターゲットモデル（例：VGG-11の全結合ヘッド）のアーキテクチャと一致する補助ネットワークで訓練する。
収束していない初期レイヤーの中間表現を活用して、以降のレイヤーの訓練を改善する。これにより、部分的な並列化の可能性が示唆される。

実験結果

リサーチクエスチョン

RQ1グリーディレイヤーワイズ訓練による浅いCNNは、ImageNetでエンド・ツー・エンド学習と同等の性能を達成できるか？
RQ2逐次的に訓練されたレイヤーは、ディープネットワークの成功と関連するプログレッシブな線形分離可能性を示すか？
RQ31層または3層の補助問題のみを用いて、VGGのようなより深いモデルの性能を再現できるか？
RQ4レイヤーワイズ訓練パイプラインにモデル圧縮を統合することで、精度を維持しながらモデルサイズを削減できるか？
RQ5類似手法がImageNetで過去に失敗したにもかかわらず、この手法は大規模データセットにスケーリング可能か？

主な発見

グリーディレイヤーワイズ手法は、1層の補助問題を訓練するだけで、ImageNetでAlexNetの性能を上回った。
11層のネットワークを3層の補助問題を用いて訓練した結果、複数のVGGモデルバージョンと同等の性能を達成した。
同じ45エポックスケジュールとアーキテクチャ設定を用いた場合、エンド・ツー・エンドで訓練されたVGG-11と同等の精度を達成した。
各レイヤーの訓練後にモデル圧縮（128フィルタから64フィルタにプルーニング）を適用したところ、CIFAR-10で精度は0.1%低下するだけで、87.6%（対象：87.5%）の精度を維持した。
収束していない初期レイヤーの特徴量でさえも、以降のレイヤーの訓練を改善するのに利用可能であったため、部分的な並列化の可能性が示唆された。
同じメモリ制約下でも、エンド・ツー・エンド手法よりも大きなモデルの訓練が可能であり、特にメモリ制限がある環境や大規模応用に有利であることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。