Skip to main content
QUICK REVIEW

[论文解读] FixyNN: Efficient Hardware for Mobile Computer Vision via Transfer Learning

Paul N. Whatmough, Chuteng Zhou|arXiv (Cornell University)|Feb 27, 2019
Advanced Neural Network Applications参考文献 51被引用 37
一句话总结

tldr: FixyNN 提出了一种两部分的 CNN 架构,包含一个固定权重特征提取器(FFE)和一个可编程后端,使得在移动硬件上实现基于迁移学习的视觉模型具有高能效。

ABSTRACT

The computational demands of computer vision tasks based on state-of-the-art Convolutional Neural Network (CNN) image classification far exceed the energy budgets of mobile devices. This paper proposes FixyNN, which consists of a fixed-weight feature extractor that generates ubiquitous CNN features, and a conventional programmable CNN accelerator which processes a dataset-specific CNN. Image classification models for FixyNN are trained end-to-end via transfer learning, with the common feature extractor representing the transfered part, and the programmable part being learnt on the target dataset. Experimental results demonstrate FixyNN hardware can achieve very high energy efficiencies up to 26.6 TOPS/W ($4.81 imes$ better than iso-area programmable accelerator). Over a suite of six datasets we trained models via transfer learning with an accuracy loss of $<1\%$ resulting in up to 11.2 TOPS/W - nearly $2 imes$ more efficient than a conventional programmable CNN accelerator of the same area.

研究动机与目标

  • 将模型分成固定前端特征提取器和数据集特异性后端,以降低移动端 CNN 推理的能耗与延迟。
  • 在等面积约束下,证明固定前端能实现比完全可编程加速器更高的吞吐量和能效。
  • 表示迁移学习在跨多样视觉任务重复使用通用 FFE 的同时能够保持准确性。

提出的方法

  • 设计一个固定权重特征提取器(FFE)加速器,执行原生的、全并行卷积,权重固定,以最大化吞吐量并最小化能量。
  • 使用线缓冲和移位寄存缓冲来实现全流水线的固定权重 CNN 层,而无需大量激活存储。
  • 开发 DeepFreeze,一种开源工具流程,能够基于 TensorFlow 模型自动生成固定权重 CNN 硬件的 Verilog HDL。
  • 在 ImageNet 上用基于 MobileNet 的通用 FFE 进行训练,并通过端到端的迁移学习将其迁移到多个目标数据集,保持前端固定,同时微调后端。

实验结果

研究问题

  • RQ1通过在多个数据集之间固定 CNN 前端的一部分,可以实现多少能量和性能提升?
  • RQ2在应用迁移学习时,固定 FFE 对不同数据集的准确性有哪些影响?
  • RQ3在等面积约束下,FFE 的固定层数与可编程后端容量之间的权衡是什么?

主要发现

  • FFE 在各层上相较于可编程加速器显著提高吞吐量和能效(MobileNet-0.25 层的平均增益为 TOPS 8.3x、TOPS/W 68.5x)。
  • 在面积约束下,固定更多层可提升吞吐量和能效,在等面积下对 MobileNet-0.25,采用合适的 NVDLA 配置可达到最高 2.55x 吞吐量和 5.84x 能效增益。
  • 使用固定特征提取器的迁移学习在 CIFAR-100、CIFAR-10、SVHN 和 Flowers102 的准确性保持在小于 2% 的范围,同时所需的固定参数少于完全固定的网络。
  • 对于更大的 MobileNet-1.00,当面积预算大于 3 mm^2 时,FixyNN 展示出收益,在 4 mm^2 时固定前 4 层可实现约 1.28x 的能效提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。