QUICK REVIEW

[論文レビュー] Visual Wake Words Dataset

Aakanksha Chowdhery, Pete Warden|arXiv (Cornell University)|Jun 12, 2019

IoT and Edge/Fog Computing参考文献 26被引用数 84

ひとこと要約

この論文は、COCO から派生したバイナリの人/not-person データセット Visual Wake Words を紹介し、マイクロコントローラのメモリ制約下で tiny vision models をベンチマークする。250 KB のメモリ内で 85–90% の精度を達成し、乗算加算は 60M 未満。メモリと遅延のトレードオフを分析し、MobileNet の変種をエッジAI展開のベンチマークとする。

ABSTRACT

The emergence of Internet of Things (IoT) applications requires intelligence on the edge. Microcontrollers provide a low-cost compute platform to deploy intelligent IoT applications using machine learning at scale, but have extremely limited on-chip memory and compute capability. To deploy computer vision on such devices, we need tiny vision models that fit within a few hundred kilobytes of memory footprint in terms of peak usage and model size on device storage. To facilitate the development of microcontroller friendly models, we present a new dataset, Visual Wake Words, that represents a common microcontroller vision use-case of identifying whether a person is present in the image or not, and provides a realistic benchmark for tiny vision models. Within a limited memory footprint of 250 KB, several state-of-the-art mobile models achieve accuracy of 85-90% on the Visual Wake Words dataset. We anticipate the proposed dataset will advance the research on tiny vision models that can push the pareto-optimal boundary in terms of accuracy versus memory usage for microcontroller applications.

研究の動機と目的

低メモリ制約のマイクロコントローラ上でのオンデバイス視覚認識の必要性を動機づける。
Visual Wake Words を COCO から派生した現実的な Binary-class ベンチマークとして提案する。
エッジデバイス上の tiny CNN のメモリ、レイテンシ、モデルサイズのトレードオフを特徴付ける。
250 KB フラッシュ/ SRAM 制限と各推論あたり 60M MACs の制約のもと、最先端のモバイルモデルをベンチマークする。

提案手法

tiny vision models の設計制約を定義する：≤250 KB のピークメモリと ≤60M MACs per inference。
COCO 画像を bounding box 面積 >0.5% の基準で person/not-person に再ラベリングして Visual Wake Words データセットを作成する。
8-bit 重み/活性化を用いて MobileNet V1/V2、MNasNet、ShuffleNet を訓練・量子化する。
ImageNet および Visual Wake Words データセットで、ピークメモリ、パラメータ数、MACs に対する精度を評価する。
MobileNet V2 および MNasNet を SRAM 制約に適合させるためのメモリ管理手法を検討する。

実験結果

リサーチクエスチョン

RQ1250 KB メモリと 60M MACs の制約下で Visual Wake Words に対して tiny vision models はどの程度の精度を達成できるか？
RQ2画像解像度と深さ倍率がエッジ制約下でモデルサイズ、ピークメモリ、計算量にどう影響するか？
RQ3マイクロコントローラ用のハードウェアに制約されたモバイルアーキテクチャの残差経路と並列経路から生じるメモリ-レイテンシトレードオフはどのようなものか？
RQ48-bit 量子化はマイクロコントローラ上の人/not-person 分類で競争力のある性能を実現できるか？

主な発見

Visual Wake Words は 250 KB メモリ制限の下で最先端モバイルモデルと同等の精度を 85–90% で達成可能である。
MobileNet V1/V2、MNasNet、ShuffleNet は Visual Wake Words で高精度を達成しつつ 250 KB のフラッシュストレージ内に収まる。
ピークメモリの支配的な要因は初期層の活性化マップであり、並列パスのメモリ節約戦略が必要となる。
画像解像度を下げるとピークメモリと MACs は低減するが、精度は制約される可能性がある；トレードオフはアーキテクチャと深さ倍率に依存する。
量子化対応訓練を伴う 8-bit 量子化は二値タスクに対して競争力のある精度を実現する。
ImageNet において同じモデルはトップ1 精度が低く、Visual Wake Words データセットが tiny vision model のための異なる Pareto フロンティアを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。