QUICK REVIEW

[論文レビュー] Predicting Parameters in Deep Learning

Misha Denil, Babak Shakibi|arXiv (Cornell University)|Jun 3, 2013

Neural Networks and Applications参考文献 23被引用数 704

ひとこと要約

この論文では、重み行列の低ランク因子分解を用いて、多くの重みを予測することで、深層ニューラルネットワークにおける学習可能なパラメータ数を大幅に削減する手法を提案している。一部の重みのみを学習し、構造的で滑らかなパrameterizationによって残りの重みを予測することで、最適な状況では95％以上のパラメータ予測が可能であり、精度の低下なしに実現され、単一マシンでの効率的学習と分散学習のオーバーヘッド削減が可能となる。

ABSTRACT

We demonstrate that there is significant redundancy in the parameterization of several deep learning models. Given only a few weight values for each feature it is possible to accurately predict the remaining values. Moreover, we show that not only can the parameter values be predicted, but many of them need not be learned at all. We train several different architectures by learning only a small number of weights and predicting the rest. In the best case we are able to predict more than 95% of the weights of a network without any drop in accuracy.

研究の動機と目的

モデルの精度を損なわずに深層ニューラルネットワークにおける動的パラメータ数を削減すること。
学習済みネットワーク重みの構造的再冗長性を活用し、それらを低ランク行列積としてモデル化すること。
同期すべきパラメータ数を最小限に抑えることで、分散学習における調整オーバーヘッドを低減し、単一マシンでの効率的学習を可能にすること。
ドロップアウトやReLUといった既存の深層学習最適化手法と直交する一般化可能な技術を開発すること。
データ駆動型の平滑な事前知識を用いて、ネットワークの大部分のパラメータを学習するのではなく予測可能であることを示すこと。

提案手法

各層の重み行列を、一方の因子が構造的事前知識（例：滑らかさ）を符号化し、他方が学習される小さな2つの行列の積として表現する。
動的重みのランダムなサブセットを学習し、残りの重みは固定された構造的因子を用いて予測する。
事前平滑性構造が存在しない場合に、重み空間のトポロジーをデータ駆動的に推定する。
低ランク分解の一方の因子を固定して滑らかさや構造的制約を強制し、他方の因子を標準的な最適化により学習する。
MLP、CNN、ICAベースのモデルなど多様なアーキテクチャに、MNIST、CIFAR-10、STL-10などのデータセットを用いて適用する。
学習中に動的パラメータ（学習される）と静的パラメータ（一度予測され、再利用される）を区別し、分散システムにおける同期要件を低減する。

実験結果

リサーチクエスチョン

RQ1わずかな学習パラメータのサブセットのみを用いて、深層ネットワークの大部分の重みを予測することは可能か？
RQ2モデル性能の劣化を伴わずに、学習可能なパラメータ数をどの程度まで削減できるか？
RQ3固定された構造的因子を有する低ランク因子分解は、深層ネットワークの本質的表現能力をどれほど効果的に捉えられるか？
RQ4この手法は、アーキテクチャの変更なしに、さまざまなアーキテクチャやデータセットに一般化して適用可能か？
RQ5パラメータ予測により、特に大規模システムにおける分散学習の調整の必要性が低下するか？

主な発見

最適な状況では、95％以上のネットワーク重みが、精度に影響を与えずに予測可能であることが確認された。
重みの10％のみを学習し、残りの90％を固定された構造的因子を用いて予測することで、性能が維持された。
この手法は、ドロップアウト、ReLU、Maxoutといった既存の深層学習技術と直交し、互換性がある。
動的パラメータ数を削減することで、分散学習フレームワークにおける同期オーバーヘッドが顕著に低減された。
静的で事前に計算されたパラメータの使用により、マシン間での実行時同期が不要となり、効率的な分散が可能になった。
MLP、CNN、ICAベースのモデルなど、多様なアーキテクチャと複数のベンチマークデータセットにわたり、一般化が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。