QUICK REVIEW

[論文レビュー] TinyTracker: Ultra-Fast and Ultra-Low-Power Edge Vision In-Sensor for Gaze Estimation

Pietro Bonazzi, Thomas Ruegg|arXiv (Cornell University)|Jan 1, 2023

Gaze Tracking and Assistive Technology被引用数 1

ひとこと要約

本稿では、ソニー IMX500 AIインセンサープラットフォーム上で、超低消費電力・超高速エッジ推論を実現する、極めてコンパクトで完全に量子化された2次元視線推定モデル「TinyTracker」を提案する。TinyTrackerは完全に量子化された状態でも、600KBのモデルサイズにまで縮小（41倍）され、精度損失はわずか0.16 cmにとどまる。これにより、19 msでエンドツーエンドの視線推定が可能となり、総消費エネルギーは4.9 mJに抑えられ、Coral Micro や Spresense を上回る速度と電力効率を実現した。

ABSTRACT

Intelligent edge vision tasks encounter the critical challenge of ensuring power and latency efficiency due to the typically heavy computational load they impose on edge platforms.This work leverages one of the first "AI in sensor" vision platforms, IMX500 by Sony, to achieve ultra-fast and ultra-low-power end-to-end edge vision applications. We evaluate the IMX500 and compare it to other edge platforms, such as the Google Coral Dev Micro and Sony Spresense, by exploring gaze estimation as a case study. We propose TinyTracker, a highly efficient, fully quantized model for 2D gaze estimation designed to maximize the performance of the edge vision systems considered in this study. TinyTracker achieves a 41x size reduction (600Kb) compared to iTracker [1] without significant loss in gaze estimation accuracy (maximum of 0.16 cm when fully quantized). TinyTracker's deployment on the Sony IMX500 vision sensor results in end-to-end latency of around 19ms. The camera takes around 17.9ms to read, process and transmit the pixels to the accelerator. The inference time of the network is 0.86ms with an additional 0.24 ms for retrieving the results from the sensor. The overall energy consumption of the end-to-end system is 4.9 mJ, including 0.06 mJ for inference. The end-to-end study shows that IMX500 is 1.7x faster than CoralMicro (19ms vs 34.4ms) and 7x more power efficient (4.9mJ VS 34.2mJ)

研究の動機と目的

バッテリー駆動でリアルタイムに動作するアプリケーションに特化した、エッジビジョンAIにおける消費電力と遅延効率の向上という、極めて重要な課題に取り組む。
最新の商用エッジプラットフォーム（ソニー IMX500、Spresense、Coral Dev Micro）を評価・比較し、エンドツーエンドのビジョンワークロードにおける性能を検証する。
極めて限られたリソース制約下でも高い精度を維持できる、1MB未満の高効率なモデルを2次元視線推定用に設計する。
AIインセンサープラットフォーム（例：IMX500）上でエンドツーエンドのミリ秒レベルの推論が可能であることを実証する。
モデル圧縮とハードウェア利用の最適化を図ることで、エッジビジョンAI分野における前例のない消費電力と速度効率を達成する。

提案手法

MobileNetV3に基づく小型CNN「TinyTracker」を設計。パラメータ数とMAC演算数を削減し、顔・目・グリッドの複数入力を1つの顔画像とグリッド埋め込みに統合することでエッジ環境への適合性を向上させた。
顔の座標埋め込みを入力に統合し、別個の顔グリッド入力が不要となるようにすることで、空間的局在化を保持した。
モデルのサイズと消費エネルギーを最小限に抑えるために、完全な量子化（INT8）を適用したが、高い精度を維持した。
ソニー IMX500にTinyTrackerをデプロイし、センサ内に統合されたAIアクセラレータを活用して、画像をセンサ上で直接処理することで、データ移動と遅延を最小限に抑えた。
3つのプラットフォームでエンドツーエンドのプロファイリングを実施し、画像キャプチャから予測までの推論時間、消費エネルギー、電力効率を測定した。
iTrackerベンチマークプロトコルに従い、標準化された評価指標（視線予測誤差（cm）、推論遅延（ms）、1回の推論あたりの消費エネルギー（mJ））を用いた。

実験結果

リサーチクエスチョン

RQ1極めてコンパクトで完全に量子化されたビジョンモデルは、エッジAIプラットフォームの厳しい消費電力と遅延制約のもとでも高い精度を達成できるか？
RQ2IMX500のセンサ内AI処理は、Coral Micro や Spresense といった従来のエッジプラットフォームと比較して、エンドツーエンドの遅延とエネルギー効率においてどのように差をつけるか？
RQ3モデル圧縮と量子化をどの程度実施すれば、視線推定において顕著な精度低下を伴わずにモデルサイズと消費エネルギーを削減できるか？
RQ4外部TPUやMCUベースのシステムと比較して、センサ統合型AIアクセラレータに推論をオフロードすることで、性能にどのような影響が生じるか？
RQ5入力に空間的グリッド埋め込みを統合することで、コンパクトなモデルにおける視線推定の精度がどの程度向上するか？

主な発見

TinyTrackerは、iTrackerと比較してモデルサイズを41倍（約24 MB → 約600 KB）に縮小したが、完全に量子化された状態でも視線推定誤差はわずか0.16 cm増加にとどまった。
ソニー IMX500 上のエンドツーエンドシステムでは、19 msの遅延を達成。そのうち17.9 msがセンサ読み取り／処理／送信時間、0.86 msが推論時間である。
エンドツーエンドシステムの総消費エネルギーは4.9 mJであり、推論段階での消費エネルギーはたった0.06 mJにとどまり、Coral Micro よりも7倍も電力効率が優れている。
エンドツーエンド評価において、IMX500はCoral Dev Micro より1.7倍速く（19 ms 対 34.4 ms）、消費エネルギー面では20倍も効率が良い（4.9 mJ 対 34.2 mJ）。
IMX500は1サイクルあたり73.23 MACの効率を達成しており、Spresense（0.20 MAC/Cycle）やCoral Micro（8.69 MAC/Cycle）を大きく上回り、ハードウェア利用効率の優位性が裏付けられた。
入力にグリッド埋め込みを追加することで、精度が0.5 cm向上した。これは、空間的局在化情報がコンパクトなモデルにおける視線推定精度を向上させることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。