QUICK REVIEW

[論文レビュー] Tensorizing Neural Networks

Alexander Novikov, Dmitry Podoprikhin|arXiv (Cornell University)|Sep 22, 2015

Tensor decomposition and applications参考文献 25被引用数 498

ひとこと要約

この論文では、全結合層の重み行列をテンソルトレース（TT）形式で表現することにより、ニューラルネットワークをテンソル化する手法を提案している。パラメータ数を最大200,000倍まで削減しながらもモデルの精度を維持でき、より小型で高速な推論が可能になる。この手法により、メモリや計算コストを大幅に削減できる小型モデルが実現され、計算可能限界を超えない範囲で、はるかに広い、より表現力の高い層を実装できる。

ABSTRACT

Deep neural networks currently demonstrate state-of-the-art performance in several domains. At the same time, models of this class are very demanding in terms of computational resources. In particular, a large amount of memory is required by commonly used fully-connected layers, making it hard to use the models on low-end devices and stopping the further increase of the model size. In this paper we convert the dense weight matrices of the fully-connected layers to the Tensor Train format such that the number of parameters is reduced by a huge factor and at the same time the expressive power of the layer is preserved. In particular, for the Very Deep VGG networks we report the compression factor of the dense weight matrix of a fully-connected layer up to 200000 times leading to the compression factor of the whole network up to 7 times.

研究の動機と目的

深層ニューラルネットワークにおける全結合層のメモリおよび計算コストを低減すること。これは、モデルのデプロイメントにおける主なボトル neck である。
密度行列のパラメータ数を著しく圧縮してもモデルの精度を維持すること。
標準的な密行列の代わりに低パラメータのTT形式分解を用いることで、はるかに広く表現力の高い全結合層の使用を可能にすること。
微分可能なTT演算を用いることで、標準的な誤差逆伝播法の訓練アルゴリズムと互換性を保つこと。
TT分解されたネットワークが、CIFAR-10などのベンチマークデータセットにおいて、標準的な非畳み込みネットワークを上回ることを示すこと。

提案手法

全結合層の密度行列を多次元テンソルとして表現し、テンソルトレース（TT）分解を適用して小さなコアテンソルの系列に因数分解する。
TT形式を用いて層をパrameter化し、入力および出力次元に線形に比例するパラメータ数を実現する。これにより、従来の二次関数的スケーリングではなくなる。
TT分解の性質を用いて、誤差逆伝播法に適合する微分可能な更新ルールを導出する。これにより、標準的な確率的勾配降下法と互換性が保たれる。
TTランクを制御することでモデル容量と圧縮率を調整しながら、標準的な最適化手法を用いてTT層をエンドツーエンドで訓練する。
VGGスタイルのネットワークにおける全結合層にTT層を適用し、畳み込み層は変更せずに標準的な密行列の代わりに使用する。
TT-ToolboxおよびMatConvNet拡張機能を用いて、CPUおよびGPU環境の両方でTT層を効率的に実装および評価する。

実験結果

リサーチクエスチョン

RQ1テンソルトレース分解は、精度の著しい損失なしに、全結合層の重み行列を効果的に圧縮できるか？
RQ2TT分解は、モデルの性能を維持したまま、全結合層のパラメータ数をどの程度まで削減できるか？
RQ3TT層を用いることで、従来では実現不可能だった、はるかに広く表現力の高い全結合層の学習が可能になるか？
RQ4TT層の推論速度およびメモリ使用量は、標準的な全結合層と比べてどの程度か？
RQ5TT分解されたネットワークは、CIFAR-10のような非畳み込みベンチマークで最先端の性能を達成できるか？

主な発見

TT層は、VGGネットワークにおける最大の全結合層を194,622倍（102,981,504から528パラメータに）圧縮し、トップ5誤差はわずか0.3%増加にとどまった。
最大および第2位の全結合層をTT圧縮した場合、ネットワーク全体の圧縮比は最大7.4倍に達した。
CPU上では1枚あたりの推論時間が1.2ms（TT層）対16.1ms（全結合層）で13倍の高速化を達成し、GPU上では1.9ms（TT層）対12.9ms（全結合層）で6.7倍の高速化を達成した。
1回の順方向伝播におけるメモリ使用量は、全結合層の392MBからTT層の0.766MBに低下し、500倍以上も削減された。
CIFAR-10で262,144個の隠れユニットを持つ非常に広いTT層は、他の非畳み込みネットワークを上回り、同クラスにおける新たな最先端性能を樹立した。
低ランクベースライン手法に比べ、圧縮効率が優れており、類似した圧縮率で顕著な精度低下を伴わず、より優れた性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。