Skip to main content
QUICK REVIEW

[論文レビュー] Paraphrasing Complex Network: Network Compression via Factor Transfer

Jangho Kim, SeoungUK Park|arXiv (Cornell University)|Feb 14, 2018
Topic Modeling参考文献 32被引用数 86
ひとこと要約

提案する因子転送(FT)は知識蒸留のため、教師因子を自律的に抽出するパラフレーザーと、学生側の翻訳者を用いて教師因子を真似させ、KDおよびATより複数データセットで性能向上を実現する。

ABSTRACT

Many researchers have sought ways of model compression to reduce the size of a deep neural network (DNN) with minimal performance degradation in order to use DNNs in embedded systems. Among the model compression methods, a method called knowledge transfer is to train a student network with a stronger teacher network. In this paper, we propose a novel knowledge transfer method which uses convolutional operations to paraphrase teacher's knowledge and to translate it for the student. This is done by two convolutional modules, which are called a paraphraser and a translator. The paraphraser is trained in an unsupervised manner to extract the teacher factors which are defined as paraphrased information of the teacher network. The translator located at the student network extracts the student factors and helps to translate the teacher factors by mimicking them. We observed that our student network trained with the proposed factor transfer method outperforms the ones trained with conventional knowledge transfer methods.

研究の動機と目的

  • 最小限の精度喪失で組み込みシステム向けのモデル圧縮を動機づける。
  • 事前学習済みネットワークから無監督で教師因子を抽出するパラフレーサを導入する。
  • 因子転送(FT)損失を介して教師因子を模倣するよう、学生ネットワーク内に翻訳者を設計する。
  • 画像分類と物体検出のベンチマークでFTの有効性を示す。

提案手法

  • 教師因子を、再構成損失で訓練されたパラフレーザーによって生成されたパラフレーズ済みの教師特徴マップとして定義する。
  • 教師特徴マップを m x k の因子チャネルにリサイズする(パラフレーズ率 k)。
  • 学生の最後のグループの後に翻訳者を付け、FT損失を介して教師因子と整合する学生因子を生成する。
  • 因子のL1正規化を用いたFT損失と分類損失を組み合わせた損失で学生を訓練する。
  • CIFAR-10/100、ImageNet、PASCAL VOCでFTをKDおよびATと比較し、パラフレーザー/翻訳者コンポーネントのアブレーション研究を含む。

実験結果

リサーチクエスチョン

  • RQ1パラフレーザーと翻訳者を用いた因子ベースの知識伝達は、従来のKD/ATより学生の性能を向上させるか?
  • RQ2パラフレーザー率 k がアーキテクチャとデータセット全体でFTの有効性にどう影響するか?
  • RQ3教師因子の無監督抽出は、直接の活性化/ソフトラベル転送より有利か?
  • RQ4FTは分類以外のタスク、例えば物体検出にも有利か?

主な発見

  • FTはCIFAR-10/100で、さまざまな教師/学生アーキテクチャにわたり一貫してKDとATを上回る。
  • 空間次元を保ち、複数層を持つパラフレーザーは、因子抽出のための畳み込みオートエンコーダよりも良い結果をもたらす。
  • 翻訳者は学生が教師因子を模倣できるようにし、教師と学生の深さ/幅が異なる場合でも学習を改善する。
  • FTは大規模ImageNetでも有効で(Top-1誤差を低減)、Faster-RCNNバックボーンに適用するとPASCAL VOC 2007の物体検出性能を改善する。
  • アブレーション実験は、パラフレーザーと翻訳者の組み合わせが最良の性能を示し、パラフレーザー層を増やすと結果が改善されることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。