Skip to main content
QUICK REVIEW

[論文レビュー] FixyNN: Efficient Hardware for Mobile Computer Vision via Transfer Learning

Paul N. Whatmough, Chuteng Zhou|arXiv (Cornell University)|Feb 27, 2019
Advanced Neural Network Applications参考文献 51被引用数 37
ひとこと要約

FixyNNは、固定重みの特徴抽出器(FFE)とプログラム可能なバックエンドを組み合わせた2部構成のCNNアーキテクチャを提案し、モバイル機器上で高いエネルギー効率を実現する転移学習ベースのビジョンモデルを可能にします。

ABSTRACT

The computational demands of computer vision tasks based on state-of-the-art Convolutional Neural Network (CNN) image classification far exceed the energy budgets of mobile devices. This paper proposes FixyNN, which consists of a fixed-weight feature extractor that generates ubiquitous CNN features, and a conventional programmable CNN accelerator which processes a dataset-specific CNN. Image classification models for FixyNN are trained end-to-end via transfer learning, with the common feature extractor representing the transfered part, and the programmable part being learnt on the target dataset. Experimental results demonstrate FixyNN hardware can achieve very high energy efficiencies up to 26.6 TOPS/W ($4.81 \times$ better than iso-area programmable accelerator). Over a suite of six datasets we trained models via transfer learning with an accuracy loss of $<1\%$ resulting in up to 11.2 TOPS/W - nearly $2 \times$ more efficient than a conventional programmable CNN accelerator of the same area.

研究の動機と目的

  • モデルを固定前端特徴抽出器とデータセット固有のバックエンドに分割することで、モバイルCNN推論のエネルギー消費とレイテンシを削減する。
  • iso-area制約下で、固定前端が完全にプログラム可能なアクセラレータよりも高いスループットとエネルギー効率を達成できることを示す。
  • 多様なビジョンタスクで共通のFFEを再利用しつつ、転移学習が精度を維持できることを示す。

提案手法

  • スループットを最大化しエネルギーを最小化するため、固定重みでネイティブの完全Parallel畳み込みを実行するFFEアクセラレータの設計。
  • 大きな活性化ストレージを必要とせず、完全にパイプライン化された固定重みCNN層を実現するために、Line Buffersとシフトレジスタベースのバッファリングを使用。
  • DeepFreezeの開発、TensorFlowモデルから固定重みCNNハードウェア用のVerilog HDLを自動生成するオープンソースのツールフロー。
  • ImageNetでMobileNetをベースとする共通FFEを訓練し、エンドツーエンドの転移学習を通じて複数のターゲットデータセットへ転移、前端を固定したままバックエンドをファインチューニングする。

実験結果

リサーチクエスチョン

  • RQ1複数データセットに跨るCNN前端の一部を固定することで、どれくらいのエネルギー消費と性能向上を達成できるか?
  • RQ2転移学習を適用した際、さまざまなデータセットでFFEを固定することによる精度影響はどの程度か?
  • RQ3iso-area制約下で、FFEの固定レイヤ数とプログラム可能バックエンド容量のトレードオフはどうなるか?

主な発見

  • FFEは、MobileNet-0.25レイヤで平均的にTOPSで8.3x、TOPS/Wで68.5xのスループットとエネルギー効率を、プログラム可能アクセラレータと比較して大幅に向上させる。
  • エリア制約下で、より多くのレイヤを固定するとスループットとエネルギー効率が向上し、MobileNet-0.25で適切なNVDLA構成の場合、iso-areaで最大2.55xのスループットと5.84xのエネルギー効率の向上が得られる。
  • 固定特徴抽出器を用いた転移学習は、CIFAR-100、CIFAR-10、SVHN、Flowers102で精度を<2%の範囲内に維持し、完全に固定されたネットワークより固定パラメータ数が少なくて済む。
  • より大きなMobileNet-1.00では、エリア予算が>3 mm^2のときFixyNNに利点が見られ、最初の4層を固定すると4 mm^2で約1.28xのエネルギー効率改善を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。