QUICK REVIEW

[論文レビュー] Hello Edge: Keyword Spotting on Microcontrollers

Yundong Zhang, Naveen Suda|arXiv (Cornell University)|Nov 20, 2017

Speech and Audio Processing参考文献 25被引用数 340

ひとこと要約

論文はマイクロコントローラ上のキーワードスポットのために複数のニューラルネットワークアーキテクチャを評価し、深さ方向分離可能な CNN (DS-CNN) がMCUの制約内で最も高い精度を提供し、8ビット量子化を実用的なデプロイメントに向けて効果的であることを示しています。

ABSTRACT

Keyword spotting (KWS) is a critical component for enabling speech based user interactions on smart devices. It requires real-time response and high accuracy for good user experience. Recently, neural networks have become an attractive choice for KWS architecture because of their superior accuracy compared to traditional speech processing algorithms. Due to its always-on nature, KWS application has highly constrained power budget and typically runs on tiny microcontrollers with limited memory and compute capability. The design of neural network architecture for KWS must consider these constraints. In this work, we perform neural network architecture evaluation and exploration for running KWS on resource-constrained microcontrollers. We train various neural network architectures for keyword spotting published in literature to compare their accuracy and memory/compute requirements. We show that it is possible to optimize these neural network architectures to fit within the memory and compute constraints of microcontrollers without sacrificing accuracy. We further explore the depthwise separable convolutional neural network (DS-CNN) and compare it against other neural network architectures. DS-CNN achieves an accuracy of 95.4%, which is ~10% higher than the DNN model with similar number of parameters.

研究の動機と目的

MCUのメモリと計算制約下で、デバイス上のキーワードスポットのためのさまざまなニューラルネットワークアーキテクチャを評価する。
アーキテクチャ間で精度、メモリフットプリント、および推論あたりの演算数を比較する。
MCU制約内で高精度モデルを特定するためのリソース制約付きニューラルネットワーク探索を開発する。
MobileNetにヒントを得た深さ方向分離畳み込みCNNアーキテクチャをKWS on MCUsに提案・評価する。
実際のMCUハードウェア上での実用的なデプロイと量子化効果を実証する。

提案手法

固定8ビットの重み/活性化を前提に、Google Speech Commandsデータセット上で文献ベースのKWSモデル（DNN、CNN、LSTM、CRNN）を訓練・比較する。
MobileNetに着想を得た深さ方向分離畳み込みに基づくDS-CNNモデルを導入・評価する。
小・中・大の3つのMCUメモリ/計算予算にモデルをマッピングして、リソース制約付きアーキテクチャ探索を実施する。
代表的なモデルを8ビット固定小数点重み/活性化に量子化し、精度低下を評価する。
CMSIS-NNを用いてCortex-M7 MCUに8ビット量子化したDNNモデルをデプロイし、リアルタイム性能を検証する。

実験結果

リサーチクエスチョン

RQ1MCUリソースに制約された場合、人気のKWSモデルの精度、メモリフットプリント、計算要件はどのようになるか。
RQ2固定MCU予算内でDS-CNNが従来のアーキテクチャを上回ることができるか。
RQ38ビット量子化がKWSモデルの精度とマイクロコントローラ上でのデプロイ性にどう影響するか。
RQ4メモリ/計算予算が段階的に厳しくなるにつれて、DS-CNNモデルのスケーラビリティとトレードオフはどうなるか。

主な発見

NN Architecture	Accuracy	Memory	Operations
DNN	84.3%	288 KB	0.57 MOps
CNN-1	90.7%	556 KB	76.02 MOps
CNN-2	84.6%	149 KB	1.46 MOps
LSTM	88.8%	26 KB	2.06 MOps
CRNN	87.8%	298 KB	5.85 MOps

DS-CNNはMCU制約内で最高精度を達成し、小・中・大予算でそれぞれ94.4%、94.9%、95.4%となる。
量子化された8ビットモデルは、フル精度と比較して精度を維持または僅かに向上させ、効率的なMCUデプロイを可能にする。
Cortex-M7上で8ビットDS-CNN/DNNをデプロイすると、約12 ms/推論で10推論/秒、総KWSフットプリント約70 KBとなり、オンデバイスでのリアルタイム性能を検証する。
DS-CNNは強いスケーラビリティを提供し、メモリ・計算予算全般で他のアーキテクチャ（DNN、CNN、LSTM、CRNN）を上回る。
8 KBクラスのメモリまでスケールしたDS-CNNモデルは、同等の演算数を持つDNNを上回り、超資源制約MCUに適していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。