QUICK REVIEW

[論文レビュー] Low-Rank Approximations for Conditional Feedforward Computation in Deep Neural Networks

Andrew S. Davis, Itamar Arel|arXiv (Cornell University)|Dec 16, 2013

Sparse and Compressive Sensing Techniques参考文献 11被引用数 49

ひとこと要約

本論文は、ReLUネットワークにおける前活性化値の符号を推定することで、深層ニューラルネットワークにおける条件付きフィードフォワード計算を可能にする低ランク近似手法を提案する。特異値分解（SVD）を用いて重み行列を因子化することで、ReLU後に出力がゼロとなるニューロンを予測し、その計算をスキップできる。MNISTおよびSVHNデータセットにおいて、顕著な高速化が達成され、精度の低下は最小限に抑えられる。

ABSTRACT

Scalability properties of deep neural networks raise key research questions, particularly as the problems considered become larger and more challenging. This paper expands on the idea of conditional computation introduced by Bengio, et. al., where the nodes of a deep network are augmented by a set of gating units that determine when a node should be calculated. By factorizing the weight matrix into a low-rank approximation, an estimation of the sign of the pre-nonlinearity activation can be efficiently obtained. For networks using rectified-linear hidden units, this implies that the computation of a hidden unit with an estimated negative pre-nonlinearity can be ommitted altogether, as its value will become zero when nonlinearity is applied. For sparse neural networks, this can result in considerable speed gains. Experimental results using the MNIST and SVHN data sets with a fully-connected deep neural network demonstrate the performance robustness of the proposed scheme with respect to the error introduced by the conditional computation process.

研究の動機と目的

不要なReLUニューロンの計算を特定・スキップすることで、深層ニューラルネットワークの計算オーバーヘッドを低減すること。
ReLU活性化が引き起こすスパarsityと重み行列の冗長性を活用し、推論効率を向上させること。
計算コストが低く、低ランクの推定機構を構築し、完全な計算を行う前にどの隠れユニットが出力がゼロになるかを予測すること。
全結合ネットワークにおける計算の節約とモデル精度のトレードオフを評価すること。
一度のエポックごとにSVDを実行する方法が、スケーラブルかつ効率的に、活性化の符号推定に適しているかを検討すること。

提案手法

本手法は、重み行列WをUとVに特異値分解（SVD）による低ランク因子分解により近似する。W ≈ UV となるようにする。
活性化推定器は、sgn(a_l * U * V) を計算し、次の層の前活性化値の符号を予測する。
ReLUユニットの場合、予測された前活性化値が負であれば、ニューロンの出力はゼロであることが判明するため、その計算をスキップする。
推定器は1エポックごとにSVDを用いて更新され、重み行列の低ランク近似を維持する。
条件付き計算は、推定器が非ゼロ出力を予測する箇所でのみ活性化を計算することで実装され、FLOPsが削減される。
ハイパーパramータは検証データを用いて調整され、MNISTおよびSVHNにおける全結合ネットワークに適用される。

実験結果

リサーチクエスチョン

RQ1重み行列の低ランク近似が、ReLUネットワークにおける前活性化値の符号を信頼性高く予測できるか？
RQ2符号予測に基づくReLUニューロン計算のスキップが、精度を劣化させることなく、どの程度推論時間を短縮できるか？
RQ3異なる低ランク近似ランクにおける条件付き計算方式の性能はどのように変化するか？
RQ4一度のエポックごとのSVD更新が、訓練エポック全体にわたって推定精度を維持するのに十分か？
RQ5この手法は、他のハードスイッチング活性化関数やCNNアーキテクチャなどに一般化可能か？

主な発見

フルランクネットワークを用いた場合、MNISTでは1.40%のテスト誤差を達成し、低ランク推定器を用いても精度の低下は最小限であった。
10-10-5ランク推定器でさえ、MNISTで2.28%のテスト誤差を達成し、低ランク近似に対して高い耐性を示した。
50-35-25および25-25-25ランク構成では、それぞれ1.43%および1.60%の誤差を示し、性能低下はほとんど認められなかった。
SVHNデータセットにおいても、複数のネットワーク構成において、条件付き計算方式が競争力のある性能を維持した。
重みの更新に伴い、エポック内でのミニバッチ間で活性化推定誤差がわずかに増加したため、オンラインでの低ランク更新の必要性が示された。
著者らは、SVDベースの推定がReLUネットワークにおける出力差を最小化する真の目的に対して最適でないことを観察し、より良い近似目的関数の開発余地があると示唆した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。