QUICK REVIEW

[論文レビュー] TOD: Transprecise Object Detection to Maximise Real-Time Accuracy on the Edge

Junkyu Lee, Blesson Varghese|arXiv (Cornell University)|May 18, 2021

Advanced Neural Network Applications参考文献 16被引用数 12

ひとこと要約

TOD（Transprecise Object Detection）は、境界ボックスのサイズと動きの特徴を分析することで、エッジ上で最適なYOLOベースの深層ニューラルネットワーク（DNN）を動的に選択し、計算オーバーヘッドを最小限に抑えながらリアルタイムのオブジェクト検出精度を最大化する。MOT17DetにおいてYOLOv4-tiny-288よりも平均精度を34.7%向上させ、YOLOv4-416と比較してGPUリソースを45.1%、消費電力は62.7%に抑える一方で、完全な精度を維持する。

ABSTRACT

Real-time video analytics on the edge is challenging as the computationally constrained resources typically cannot analyse video streams at full fidelity and frame rate, which results in loss of accuracy. This paper proposes a Transprecise Object Detector (TOD) which maximises the real-time object detection accuracy on an edge device by selecting an appropriate Deep Neural Network (DNN) on the fly with negligible computational overhead. TOD makes two key contributions over the state of the art: (1) TOD leverages characteristics of the video stream such as object size and speed of movement to identify networks with high prediction accuracy for the current frames; (2) it selects the best-performing network based on projected accuracy and computational demand using an effective and low-overhead decision mechanism. Experimental evaluation on a Jetson Nano demonstrates that TOD improves the average object detection precision by 34.7 % over the YOLOv4-tiny-288 model on average over the MOT17Det dataset. In the MOT17-05 test dataset, TOD utilises only 45.1 % of GPU resource and 62.7 % of the GPU board power without losing accuracy, compared to YOLOv4-416 model. We expect that TOD will maximise the application of edge devices to real-time object detection, since TOD maximises real-time object detection accuracy given edge devices according to dynamic input features without increasing inference latency in practice.

研究の動機と目的

計算リソースが制限されたエッジデバイスにおけるリアルタイム動画分析における高いオブジェクト検出精度を維持する課題に対処すること。
特に小さなオブジェクトや高いフレームレートが関与する状況において、モデルの精度と推論速度のトレードオフを克服すること。
オブジェクトサイズや動きの速度といった変化する動画ストリームの特性に適応する低オーバーヘッドで動的なDNN選択メカニズムを構築すること。
推論遅延を増加させることなく、Jetson Nanoのようなエッジプラットフォームでリアルタイム検出精度を最大化すること。
クラウドへのデータ転送やリソース使用量を最小限に抑えることで、エッジデバイスにおけるリアルタイム動画分析の効率的でスケーラブルな展開を可能にすること。

提案手法

TODは、各フレームに対して検出された境界ボックスの中央値サイズとオブジェクトの動きの特徴に基づき、最も適切なDNNを選択するランタイム意思決定メカニズムを採用する。
最適な精度と効率を達成するため、軽量モデル（YOLOv4-tiny）とフルプレシジョンモデル（YOLOv4）の切り替えを決定する閾値（Hopt）を事前最適化するためのハイパーパramータサーチを実施する。
先行研究の知見を活用し、より小さく速く動くオブジェクトは軽量モデルの恩恵を受けるが、より大きくゆっくり動くオブジェクトは精度を確保するためには重いモデルを必要とするという事実を活用する。
TODは、メモリ上に4つのYOLOモデル（YOLOv4-tiny-288、YOLOv4-tiny-416、YOLOv4-288、YOLOv4-416）を維持し、リアルタイムのフレーム分析に基づいてそれらを動的に切り替える。
意思決定ロジックは最小限のオーバーヘッドで実装されており、フレームごとの境界ボックスサイズの中央値を計算するのみで、DNN推論に比べて計算的に無視できる。
本システムは、MOT17Detデータセットを用いてJetson Nano上で評価され、平均精度、GPU使用率、消費電力の指標で性能が測定された。

実験結果

リサーチクエスチョン

RQ1リアルタイムの動画フレーム特徴に基づく動的DNN選択は、遅延を増加させることなくエッジデバイスにおけるオブジェクト検出精度を向上させることができるか？
RQ2リアルタイムエッジオブジェクト検出において、モデルの精度と計算コストのトレードオフをどのように最適化できるか？
RQ3どの動画ストリームの特徴（例：オブジェクトサイズ、動きの速さ）が、特定のフレームにおける最適なDNNを予測するのに最も適しているか？
RQ4軽量で低オーバーヘッドの意思決定メカニズムは、定期的な再評価やヒューリスティックなスイッチングを上回る性能を発揮できるか？
RQ5エッジプラットフォームにおける検出精度を維持または向上させながら、GPUリソースと消費電力をどの程度削減できるか？

主な発見

TODは、MOT17Detの全データセットにおいて、YOLOv4-tiny-288よりも平均検出精度を34.7%向上させる。
MOT17-05データセットでは、TODはYOLOv4-416と比較して、GPUリソースを45.1%、GPUボードの消費電力を62.7%に抑える一方で、完全な精度を維持する。
フレームごとの境界ボックスサイズの中央値は、最適なDNN選択の強力な予測要因であり、低オーバーヘッドでリアルタイム意思決定を可能にする。
TODの計算オーバーヘッドは無視できるほど小さい。フレームごとの境界ボックスサイズの中央値を計算するのみで、DNN推論遅延に比べて著しく小さい。
TODは、すべてのMOT17Detシーケンス、特に動的カメラや高速移動オブジェクトが含まれる困難な状況においても、最良の個別DNNと同等またはより高い精度を達成する。
グリッドサーチによるハイパーパramータチューニングにより、データセットの特性とハードウェア制約に適合した最適なスイッチング閾値（Hopt）が特定され、多様なユースケースにおいて一貫したパフォーマンスが保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。