QUICK REVIEW

[論文レビュー] Compressing Neural Networks with the Hashing Trick

Wenlin Chen, James T. Wilson|arXiv (Cornell University)|Apr 19, 2015

Neural Networks and Applications参考文献 53被引用数 565

ひとこと要約

この論文は、ハッシュ関数を用いて接続を共有重みのグループに割り当てることで、最小限の精度損失でモデルサイズを著しく削減するニューラルネットワーク圧縮技術、HashedNetsを紹介する。パラメータ共有による「仮想的」な接続を許容することで、HashedNetsはMNISTで1.61%のテスト誤差を達成し、16倍のモデルインフレーションを実現し、高圧縮率における低ランク法やエッジ削除法のベースラインを上回る性能を発揮する。

ABSTRACT

As deep nets are increasingly used in applications suited for mobile devices, a fundamental dilemma becomes apparent: the trend in deep learning is to grow models to absorb ever-increasing data set sizes; however mobile devices are designed with very little memory and cannot store such large models. We present a novel network architecture, HashedNets, that exploits inherent redundancy in neural networks to achieve drastic reductions in model sizes. HashedNets uses a low-cost hash function to randomly group connection weights into hash buckets, and all connections within the same hash bucket share a single parameter value. These parameters are tuned to adjust to the HashedNets weight sharing architecture with standard backprop during training. Our hashing procedure introduces no additional memory overhead, and we demonstrate on several benchmark data sets that HashedNets shrink the storage requirements of neural networks substantially while mostly preserving generalization performance.

研究の動機と目的

モバイルおよびメモリ制限のある組み込みデバイスに大規模なディープニューラルネットワークをデプロイする際の増大するメモリボトルネックに対処する。
ニューラルネットワークの重みに内在する冗長性を活用し、性能の著しい低下を伴わずにモデルサイズを縮小する。
トレーニングや推論時に追加のメモリオーバーヘッドを生じさせない、メモリ効率の良い圧縮手法を開発する。
ハッシングによるパラメータ共有とネットワークインフレーションを組み合わせることで一般化性能が向上することを示す。
極めて低い精度の低下で高圧縮を実現できるため、リソース制約のあるデバイスへの大規模モデルのデプロイを可能にする。

提案手法

ニューラルネットワークの接続を共有重みのバケットにマップするために、ランダムなハッシュ関数を適用し、同じバケット内にあるすべての接続が同じパラメータ値を使用する。
標準的な誤差逆伝播法を用いて共有パラメータを学習し、バケット内のすべての接続を同時に更新できるようにする。
実際のパラメータ数を固定したまま仮想的な隠れノードの数を増やすことで、ネットワークインフレーション機構を導入する。
ドロップアウト、ReLU活性化関数、重みのスパarsityといった標準的なディープラーニング手法との互換性を維持する。
実際のパラメータ数（K^ℓ）を固定したまま、仮想ノード数（n^ℓ）を変化させることで、拡張が一般化性能に与える影響を調査する。
トレーニング中に勾配信号の多様性を保ちながら衝突を最小限に抑えるようにハッシングプロセスを最適化する。

実験結果

リサーチクエスチョン

RQ1ハッシングによるパラメータ共有は、テスト精度にほとんど影響を与えずにニューラルネットワークのモデルサイズを著しく削減できるか？
RQ2固定されたメモリ制約下で、仮想接続によるネットワークインフレーションは一般化性能にどのように影響するか？
RQ3高圧縮領域において、ハッシングベースの圧縮は低ランク分解法やエッジ削除法を上回る性能を発揮するか？
RQ4実際のパラメータ数を増やさずに、性能を最大限に高める最適な拡張係数（仮想ノード数）は何か？
RQ5異なるベンチマークデータセットおよびネットワークアーキテクチャにおいて、この手法はどのようにスケーリングするか？

主な発見

HashedNetsは、MNISTで最大16倍の仮想的ネットワークインフレーションを達成し、テスト誤差は1.61%にとどまる。これは標準ネットワークと比較して50%の相対的誤差削減に相当する。
圧縮率が1/64のとき、HashedNetsは全8つのベンチマークデータセットで低ランク分解法やエッジ削除法を上回り、極端な圧縮状況でも顕著な優位性を示す。
仮想パラメータ1つあたり0.5ビット未満の情報量しか保存しなくても、高い性能を維持するため、極めて高い圧縮効率を示す。
最良の性能は8倍から16倍のインフレーション係数で得られ、それ以上に拡張すると過剰なハッシュ衝突によりテスト誤差が上昇する。
特に極めて高い圧縮率において、低ランク法やエッジ削除法のベースラインに比べ、HashedNetsはより優れた耐圧縮性を示す。
追加のメモリオーバーヘッドを生じさせず、ドロップアウトや重みスパarsityといった標準的な正則化手法とも互換性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。