Skip to main content
QUICK REVIEW

[論文レビュー] Compression of Deep Neural Networks on the Fly

Guillaume Soulié, Vincent Gripon|arXiv (Cornell University)|Sep 29, 2015
Advanced Neural Network Applications被引用数 1
ひとこと要約

本稿では、トレーニング中に重みが0または1に収束するよう促すバイナリ正則化項を導入することで、ディープニューラルネットワークのオンザフライ圧縮法を提案する。その後、さらに圧縮を図るためにProduct Quantization(PQ)を適用する。この手法により、MNISTでは107×の圧縮率を達成し、わずか2%の精度損失で、トレーニング後に圧縮を適用するのではなく学習段階に正則化を統合することで、最先端技術を著しく上回る性能を発揮する。

ABSTRACT

Thanks to their state-of-the-art performance, deep neural networks are increasingly used for object recognition. To achieve these results, they use millions of parameters to be trained. However, when targeting embedded applications the size of these models becomes problematic. As a consequence, their usage on smartphones or other resource limited devices is prohibited. In this paper we introduce a novel compression method for deep neural networks that is performed during the learning phase. It consists in adding an extra regularization term to the cost function of fully-connected layers. We combine this method with Product Quantization (PQ) of the trained weights for higher savings in storage consumption. We evaluate our method on two data sets (MNIST and CIFAR10), on which we achieve significantly larger compression rates than state-of-the-art methods.

研究の動機と目的

  • スマートフォンなどのリソース制約のあるデバイスへのデプロイを想定し、ディープニューラルネットワークのストレージ容量を削減すること。
  • 最新のCNNではモデルサイズが100 MBを超えることがあり、組み込みシステムへのデプロイを困難にしているという課題に対処すること。
  • トレーニング後に圧縮を適用するのではなく、トレーニング中にモデルを圧縮する手法を開発し、性能を維持したままより高い圧縮率を実現すること。
  • 層の深さがバイナリ量子化性能に与える影響を調査し、それに応じて圧縮戦略を最適化すること。

提案手法

  • 完全結合層の重みがトレーニング中にバイナリ値(0または1)に収束するよう促す、新しい正則化項を損失関数に導入する。
  • 学習済みでバイナリ化された重みに対して、さらにストレージ要件を削減するためにProduct Quantization(PQ)を適用する。
  • 通常のCNNでは90%以上を占める完全結合層に圧縮を集中させる。
  • 出力層を最初にバイナリ化することを優先する。出力層は性能とストレージに大きな影響を与えるため。
  • ハイブリッドアプローチを採用:トレーニング中にバイナリ正則化を適用し、その後PQでさらに圧縮する。
  • レイヤー単位の戦略を採用し、出力層から入力層へ順に量子化することで、分類精度を維持する。

実験結果

リサーチクエスチョン

  • RQ1圧縮されたDNNにおける分類性能に、バイナリ化された層の深さはどのように影響するか?
  • RQ2トレーニング中にバイナリ正則化項を追加することで、精度を損なわず圧縮効率を向上させられるか?
  • RQ3完全結合層におけるバイナリ化の最適なレイヤー順序は何か(入力から出力へ vs. 出力から入力へ)?
  • RQ4本稿で提案するオンザフライ手法は、トレーニング後に圧縮を適用する手法と比較して、圧縮率と精度の面でどのように異なるか?
  • RQ5学習済みのバイナリ重みと組み合わせた場合、Product Quantizationがどれほどさらに圧縮を向上させられるか?

主な発見

  • 本手法は、MNISTデータセットでわずか2%の精度損失で107×の圧縮率を達成し、最先端技術を著しく上回る。
  • 出力完全結合層のみを圧縮することで、モデルのストレージを26 MBから550 KBにまで削減でき、顕著なメモリ節約が実現された。
  • 入力層を最初にバイナリ化すると性能が著しく低下する。最も良い結果は、出力層を入力層よりも先にバイナリ化した場合に得られた。
  • 極めて高い圧縮率下でも、本手法は高い精度を維持する。最終層のみをバイナリ化した場合、MNISTでのテスト誤差は0.88%にとどまる。
  • オンザフライでのバイナリ正則化とPQの組み合わせは、PQ単体よりも高い圧縮率を実現する。PQ単体では33×の圧縮率が達成されたが、本手法では107×の圧縮率が得られた。
  • 研究により、出力層がバイナリ化に適していることが確認された。これは、高レベルの特徴検出に果たす役割と一致し、生物学的妥当性とも一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。