QUICK REVIEW

[論文レビュー] Learning the Number of Neurons in Deep Networks

José M. Alvarez, Mathieu Salzmann|arXiv (Cornell University)|Nov 19, 2016

Machine Learning and Algorithms被引用数 197

ひとこと要約

この論文は、訓練中に層ごとにニューロンの数を自動的に決定し剪定するグループスパース正則化を導入し、過剰完備なネットワークから始めてパラメータを大幅に削減しつつ精度を維持または向上させる。

ABSTRACT

Nowadays, the number of layers and of neurons in each layer of a deep network are typically set manually. While very deep and wide networks have proven effective in general, they come at a high memory and computation cost, thus making them impractical for constrained platforms. These networks, however, are known to have many redundant parameters, and could thus, in principle, be replaced by more compact architectures. In this paper, we introduce an approach to automatically determining the number of neurons in each layer of a deep network during learning. To this end, we propose to make use of structured sparsity during learning. More precisely, we use a group sparsity regularizer on the parameters of the network, where each group is defined to act on a single neuron. Starting from an overcomplete network, we show that our approach can reduce the number of parameters by up to 80\% while retaining or even improving the network accuracy.

研究の動機と目的

メモリと計算コストを削減するための層幅の自動決定を動機づける。
訓練中に全体のニューロンを削除できる正則化学習フレームワークを提案する。
事前訓練なしでネットワークパラメータとニューロン数のエンドツーエンド学習を可能にする。
ImageNetとICDARで大規模データセットとアーキテクチャへのスケーラビリティを実証する。

提案手法

層内のニューロンをパラメータのグループとして定義し、いくつかのグループをゼロに押し込むグループスパース正則化を適用する。
グループノルムとL1ペナルティを組み合わせてグループレベルとグループ内のスパース性の両方を促すスパースグループラソ（SGL）バリアントを使用する。
近接勾配降下法で最適化する；ニューロンごとのグループに対して近接演算子を適用して全ニューロンをゼロにする。
過剰完備なネットワークからスタートし、学習中にニューロンを反復的に剪定してコンパクトなアーキテクチャを得る。
2つの正則化バリアントを実験: Eq.(2)のグループスパース、Eq.(3)のスパースグループラソ with alpha パラメータ。

実験結果

リサーチクエスチョン

RQ1グループスパース正則化は学習中に層あたりのニューロン数を自動的に削減できるか？
RQ2大規模データセットで精度を損なうことなくどの程度のパラメータ削減が可能か？
RQ3手法は異なるアーキテクチャやデータセット（ImageNet、Places2、ICDAR）に一般化するか？
RQ4剪定後のネットワークのテスト時の利点（速度とメモリ）は？
RQ5層間の正則化ハイパーパラメータに対する感度はどの程度か？

主な発見

Model	Top-1 acc. (%)
BNet	62.5
BNet C	61.1
ResNet50	67.3
Dec 8	64.8
Dec 8 -640	66.9
Dec 8 -768	68.1
Ours-BNet C_GS	62.7
Ours-Dec 8-GS	64.8
Ours-Dec 8-640 SGL	67.5
Ours-Dec 8-640 GS	68.6
Ours-Dec 8-768 GS	68.0

過剰完備なネットワークから出発して、パラメータを最大80%削減できる。
ほとんどの手法は剪定後にTop-1精度を維持または向上させ、ImageNetで最大2.45%の向上を得る設定もある。
BNet C with GS は 12.7% ニューロン削減と 27.4% 総パラメータ削減を達成し、精度はベースラインの1.6%以内に保持。
初期幅を大きくした場合 (M=640/768) で 19–26% のニューロン削減と最大 48% のパラメータ削減を達成し、精度はベースラインと同等またはそれを上回る。
ICDARで、Dec 3 with GS/SGL はパラメータを最大80%削減し、MaxPool/MaxOutベースラインよりも精度を改善できる。
テスト時には剪定ネットワークは大幅なスピードアップを示し（ケースによっては約50%）、メモリ節約（パラメータで最大82%）を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。