Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Task Zipping via Layer-wise Neuron Sharing

Xiaoxi He, Zimu Zhou|arXiv (Cornell University)|May 24, 2018
Advanced Neural Network Applications参考文献 30被引用数 24
ひとこと要約

本稿では、複数の事前学習済みディープニューラルネットワークを、層ごとにニューロンを共有することで圧縮するフレームワークであるMulti-Task Zipping (MTZ) を提案する。重みの共有により精度損失を最小限に抑え、軽微な微調整によって精度を回復させる。MTZは、2つのVGG-16ネットワーク間で最大39.61%のパラメータ共有を実現し、テスト誤差の上昇が0.5%未満に抑えられ、学習の反復回数を、初期から訓練する場合と比べて最低17.9倍も削減する。

ABSTRACT

Future mobile devices are anticipated to perceive, understand and react to the world on their own by running multiple correlated deep neural networks on-device. Yet the complexity of these neural networks needs to be trimmed down both within-model and cross-model to fit in mobile storage and memory. Previous studies focus on squeezing the redundancy within a single neural network. In this work, we aim to reduce the redundancy across multiple models. We propose Multi-Task Zipping (MTZ), a framework to automatically merge correlated, pre-trained deep neural networks for cross-model compression. Central in MTZ is a layer-wise neuron sharing and incoming weight updating scheme that induces a minimal change in the error function. MTZ inherits information from each model and demands light retraining to re-boost the accuracy of individual tasks. Evaluations show that MTZ is able to fully merge the hidden layers of two VGG-16 networks with a 3.18% increase in the test error averaged on ImageNet and CelebA, or share 39.61% parameters between the two networks with <0.5% increase in the test errors for both tasks. The number of iterations to retrain the combined network is at least 17.8 times lower than that of training a single VGG-16 network. Moreover, experiments show that MTZ is also able to effectively merge multiple residual networks.

研究の動機と目的

  • ストレージやメモリ制限があるモバイルデバイスに、複数の大型で事前学習済みのディープニューラルネットワークを効果的にデプロイする課題に対処すること。
  • 顕著な精度低下を伴わずに、相関の高い複数のディープニューラルネットワークにおけるクロスモデルの冗長性を低減すること。
  • 事前学習済み重みを引き継ぎ、タスク精度を回復させるために僅かな微調整のみを要する、効率的な圧縮手法を開発すること。
  • VGG-16 や ResNet といった多様なアーキテクチャ間で、異なるタスクで事前学習されたモデルであっても、効果的なパラメータ共有を可能にすること。

提案手法

  • MTZは、事前学習済みモデル間で層ごとにニューロンを共有し、誤差上昇を最小限に抑えるように最適なニューロンペアの選択を行う。
  • タスク固有のパフォーマンスを維持するために、共有ニューロンへの入力重みを更新し、誤差関数の誤差を最小化する微分可能最適化スキームを用いる。
  • フレームワークは層単位で動作し、タスク固有の分類ヘッドを保持したまま、隠れ層を部分的に統合可能である。
  • 統合後のモデルの精度回復のために、軽微な再学習フェーズを実施し、エンドツーエンドの学習と比較して学習反復回数を著しく削減する。
  • 全隠れ層の統合と、制御可能な圧縮比を持つ適応的統合の両方をサポートする。
  • さらにサイズを縮小するため、既存の単一モデル圧縮技術(例:プルーニングや量子化)と互換性がある。

実験結果

リサーチクエスチョン

  • RQ1複数の事前学習済みディープニューラルネットワークを、タスク精度を保持したまま効果的に統合し、モデルサイズを縮小できるか?
  • RQ2各タスクにおける誤差上昇を最小限に抑えるために、モデル間でのニューロン共有をどのように最適化できるか?
  • RQ3層ごとの共有による統合において、圧縮比と精度損失のトレードオフはどのように変化するか?
  • RQ4MTZは、初期から統合モデルを学習する場合と比較して、著しい学習効率の向上を達成できるか?
  • RQ5MTZは、ResNets や複数のタスクを含むより深いアーキテクチャにも効果的にスケーリングできるか?

主な発見

  • MTZは、ImageNet および CelebA タスク用の2つのVGG-16ネットワークのすべての隠れ層を完全に統合し、両タスクの平均テスト誤差が3.18%上昇した。
  • 2つのVGG-16モデル間で39.61%のパラメータを共有した場合、ImageNet および CelebA タスクの両方でテスト誤差の上昇が0.5%未満に抑えられた。
  • 統合モデルの再学習プロセスでは、単一のVGG-16ネットワークを初期から訓練する場合と比べて、少なくとも17.9倍の反復回数削減が達成された。
  • 5つの異なる視覚認識タスクで事前学習された5つのResNet-28モデル間で、MTZは90%のパラメータを共有し、平均精度低下は0.25%にとどまった。
  • MTZが構築した統合モデルは、同じアーキテクチャとパラメータ数を持つ完全共有のマルチタスクVGG-16を上回り、より優れた知識移譲が実現していることが示された。
  • 予備の結果では、MTZがスパースネットワークにも適用可能であることが示され、重みプルーニング技術との統合の可能性が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。