QUICK REVIEW

[論文レビュー] Deep Rewiring: Training very sparse deep networks

Guillaume Bellec, David Kappel|arXiv (Cornell University)|Nov 14, 2017

Advanced Vision and Imaging参考文献 2被引用数 134

ひとこと要約

DEEP R は、ネットワークの重みとアーキテクチャを同時にサンプリングすることで厳密な接続制約の下で深層ネットワークを訓練し、最小限の性能低下で非常に疎なネットワークを実現します。

ABSTRACT

Neuromorphic hardware tends to pose limits on the connectivity of deep networks that one can run on them. But also generic hardware and software implementations of deep learning run more efficiently for sparse networks. Several methods exist for pruning connections of a neural network after it was trained without connectivity constraints. We present an algorithm, DEEP R, that enables us to train directly a sparsely connected neural network. DEEP R automatically rewires the network during supervised training so that connections are there where they are most needed for the task, while its total number is all the time strictly bounded. We demonstrate that DEEP R can be used to train very sparse feedforward and recurrent neural networks on standard benchmark tasks with just a minor loss in performance. DEEP R is based on a rigorous theoretical foundation that views rewiring as stochastic sampling of network configurations from a posterior.

研究の動機と目的

ハードウェア実装における深層学習の記憶効率とエネルギー効率の懸念を動機づける。
重みを学習しつつハードな接続制約を満たす principled なフレームワークを導入する。
supervised 学習中に接続を再配線して常にアクティブなシナプス数を一定に保つアルゴリズムを開発する。
方法がネットワーク構成の tempered posterior からサンプリングすることを理論的に保証する。
疎な接続性を持つ完全連結、畳み込み、リカレントアーキテクチャへの適用性を示す。

提案手法

各潜在接続に符号 s_k と非負パラメータ θ_k を割り当て、アクティブ時には w_k = s_k θ_k、休眠時には w_k = 0 とする。
損失と L1 正則化項の勾配降下を介してアクティブな θ_k を更新し、確率的勾配 MCMC ステップを実装するためにガウス雑音を加える。
休眠接続は剪定され（θ_k < 0）、常に正確に K 本のアクティブな接続を保つようにランダムに活性化した休眠接続と置換される。
hard な接続制約の下で tempered posterior p*(θ) からのサンプリングとして学習を定式化し、重みとネットワーク構成を共同でサンプリングする。
制約された剪定/配線ダイナミクス（soft-DEEP R および DEEP R）下で定常分布へ収束することを示す理論的対応付けを提供する。
MNIST、CIFAR-10、TIMIT に対する剪定ベースラインと比較して、DEEP R および soft-DEEP R が厳密なスパース性の下で剪定法や L1 シュリンクより優れている、あるいは同等であることを示す。

実験結果

リサーチクエスチョン

RQ1総接続量の厳格な制限の下でニューラルネットワークを訓練しても、競争力のある精度を達成できるか。
RQ2重み学習と動的な再配線を同時に行うことは、トレーニング後の剪定や固定スパースベースよりも良いスパース解を生むか。
RQ3提案手法は完全連結、畳み込み、およびリカレントアーキテクチャ間で一般化するか。
RQ4制約付き確率的再配線プロセスの収束特性と理論的保証はどうか。
RQ5一定の接続予算の下で転移学習やオンライン適応をサポートできるか。

主な発見

DEEP R は MNIST で 1.3% の接続で 96.2% を達成し、拡張訓練後には 1.0% の接続で 96.3% を達成。
CIFAR-10 では 5% の接続で 84.1% の精度に到達し、20% の接続で完全連結の性能に近づく。
DEEP R および soft-DEEP R は、特に非常に低い接続数の下で剪定法や L1 シュリンク法を上回るか同等の性能を示す。
再配線は時間とともに安定化し、初期の遷移後には新しいアクティブ接続の一定の速さで発生する。
TIMIT の LSTM では、固定ランダム接続を用いた BPTT をすべての試験接続性で上回り、剪定/L1 法で見られる不安定なスパイクを回避する。
転移学習の実験では、初期層の不変な特徴と継続的な事後探索を通じて DEEP R が転移を利することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。