Skip to main content
QUICK REVIEW

[論文レビュー] Training Skinny Deep Neural Networks with Iterative Hard Thresholding Methods

Xiaojie Jin, Xiao–Tong Yuan|arXiv (Cornell University)|Jul 19, 2016
Advanced Neural Network Applications参考文献 24被引用数 61
ひとこと要約

本論文では、一般化性能を向上させるとともにモデルサイズを削減しながら、顕著に少ないパラメータで動作するスリムな深層ニューラルネットワーク(SDNN)を学習するための反復的ハードスレッショルド(IHT)手法を提案する。この手法は、低マグニチュードの接続をプルーニングするハードスレッショルド処理と、残りの重みのファインチューニングを交互に繰り返し、その後すべての接続を再活性化して再学習することで、CIFAR-10、CIFAR-100、MNIST、ImageNetで最先端の性能を達成する。パラメータ数を最大4倍まで削減可能である。

ABSTRACT

Deep neural networks have achieved remarkable success in a wide range of practical problems. However, due to the inherent large parameter space, deep models are notoriously prone to overfitting and difficult to be deployed in portable devices with limited memory. In this paper, we propose an iterative hard thresholding (IHT) approach to train Skinny Deep Neural Networks (SDNNs). An SDNN has much fewer parameters yet can achieve competitive or even better performance than its full CNN counterpart. More concretely, the IHT approach trains an SDNN through following two alternative phases: (I) perform hard thresholding to drop connections with small activations and fine-tune the other significant filters; (II)~re-activate the frozen connections and train the entire network to improve its overall discriminative capability. We verify the superiority of SDNNs in terms of efficiency and classification performance on four benchmark object recognition datasets, including CIFAR-10, CIFAR-100, MNIST and ImageNet. Experimental results clearly demonstrate that IHT can be applied for training SDNN based on various CNN architectures such as NIN and AlexNet.

研究の動機と目的

  • 深層ニューラルネットワークにおける過学習と高いメモリ・計算コストの二重の課題に対処すること。
  • 特に高い圧縮率下でも性能を損なわず、モデルサイズを削減する手法を開発すること。
  • 反復的プルーニングと再学習を通じて、圧縮されたネットワークの一般化能力を向上させること。
  • メモリ制限のあるデバイス(例:スマートフォン)への深層モデルの効率的デプロイメントを可能にすること。

提案手法

  • 本手法は、重みのマグニチュードに基づいて上位k個の重みパラメータのみを保持し、残りをゼロ化するハードスレッショルド処理と、その他の処理を交互に実行する。
  • 第I段階では、プルーニング後の残存接続でネットワークをファインチューニングし、性能回復を図る。
  • 第II段階では、以前に凍結された接続を再活性化し、全ネットワークを共同で訓練することで表現学習を向上させる。
  • この二段階のプロセスを繰り返し適用することで、スパースなネットワーク構造を段階的に最適化する。
  • ハードスレッショルドは各レイヤーごとに適用され、重みのマグニチュードに基づいて最も重要なフィルタのみを保持する。
  • 本手法はNINやAlexNetを含むさまざまなアーキテクチャに適用可能であり、学習中に明示的なサイズ制約を課す。

実験結果

リサーチクエスチョン

  • RQ1反復的ハードスレッショルドは、モデルサイズを削減しつつ、深層ニューラルネットワークの一般化性能を向上させることができるか?
  • RQ2ハードスレッショルドによるプルーニングに続く再学習は、標準的なプルーニングや正則化と比較して、より優れた性能をもたらすか?
  • RQ3IHTを用いて学習されたSDNNは、顕著に少ないパラメータ数で最先端の精度を達成できるか?
  • RQ4MNIST、CIFAR-10/100、ImageNetといった複雑性の異なるデータセットにおいて、本手法はどのようにスケーリングするか?
  • RQ5高圧縮比下でも、IHTに基づく学習戦略は性能を維持または向上させるか?

主な発見

  • CIFAR-10では、SDNN-2×はNINと比較して誤差率を2.42%低減したが、パラメータ数は半分にまで削減された。
  • CIFAR-100では、データ拡張を適用した場合、SDNN-2×はNINより5.18%低い誤差率を達成し、拡張なしでも3.19%低い誤差率を記録したが、モデルサイズは小さかった。
  • MNISTでは、SDNN-2×はわずか0.18Mパラメータで0.19%の誤差率を達成し、NIN(0.35Mパラメータ、0.47%誤差率)を上回った。
  • ImageNetでは、SDNN-2×はベースラインのAlexNetと比較してトップ5誤差率を1.66%低減したが、パラメータ数は50%削減された。
  • SDNN-4×は、1500万パラメータのベースラインAlexNetと比較して0.81%低い誤差率を達成し、同サイズの既存のプルーニング手法を上回った。
  • 本手法は、すべてのデータセットおよびアーキテクチャにおいて、高圧縮比下でも一貫して性能を向上させ、優れた一般化能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。