QUICK REVIEW

[论文解读] TOD: Transprecise Object Detection to Maximise Real-Time Accuracy on the Edge

Junkyu Lee, Blesson Varghese|arXiv (Cornell University)|May 18, 2021

Advanced Neural Network Applications参考文献 16被引用 12

一句话总结

TOD（Transprecise Object Detection）通过分析检测框大小和运动特性，在边缘设备上动态选择最优的基于YOLO的深度神经网络（DNN），以在计算开销可忽略的情况下最大化实时目标检测精度。与YOLOv4-tiny-288相比，其平均精度提升34.7%；在MOT17Det数据集上，仅使用YOLOv4-416所需45.1%的GPU资源和62.7%的功耗，同时保持完整精度。

ABSTRACT

Real-time video analytics on the edge is challenging as the computationally constrained resources typically cannot analyse video streams at full fidelity and frame rate, which results in loss of accuracy. This paper proposes a Transprecise Object Detector (TOD) which maximises the real-time object detection accuracy on an edge device by selecting an appropriate Deep Neural Network (DNN) on the fly with negligible computational overhead. TOD makes two key contributions over the state of the art: (1) TOD leverages characteristics of the video stream such as object size and speed of movement to identify networks with high prediction accuracy for the current frames; (2) it selects the best-performing network based on projected accuracy and computational demand using an effective and low-overhead decision mechanism. Experimental evaluation on a Jetson Nano demonstrates that TOD improves the average object detection precision by 34.7 % over the YOLOv4-tiny-288 model on average over the MOT17Det dataset. In the MOT17-05 test dataset, TOD utilises only 45.1 % of GPU resource and 62.7 % of the GPU board power without losing accuracy, compared to YOLOv4-416 model. We expect that TOD will maximise the application of edge devices to real-time object detection, since TOD maximises real-time object detection accuracy given edge devices according to dynamic input features without increasing inference latency in practice.

研究动机与目标

为解决在计算资源受限的边缘设备上保持高目标检测精度的挑战。
克服在小目标或高帧率场景下模型精度与推理速度之间的权衡。
开发一种低开销、动态的DNN选择机制，可自适应变化的视频流特性（如目标大小和运动速度）。
在Jetson Nano等边缘平台实现高实时检测精度，且不增加推理延迟。
通过最小化云端数据传输和资源使用，实现边缘设备上实时视频分析的高效、可扩展部署。

提出的方法

TOD采用运行时决策机制，根据检测框的中位数大小和目标运动特性，为每帧选择最合适的DNN。
通过超参数搜索预优化阈值（Hopt），以确定在轻量级（YOLOv4-tiny）与全精度（YOLOv4）模型之间切换的最佳时机，从而实现精度与效率的最优平衡。
系统利用先前研究的洞察：较小且运动较快的目标更适合使用轻量级模型，而较大且运动较慢的目标则需要更重的模型以保证精度。
TOD在内存中维护四个YOLO模型（YOLOv4-tiny-288、YOLOv4-tiny-416、YOLOv4-288、YOLOv4-416），并根据实时帧分析动态切换。
决策逻辑实现开销极低——仅需计算每帧的中位数检测框大小，与DNN推理延迟相比可忽略不计。
系统在Jetson Nano上基于MOT17Det数据集进行评估，性能通过平均精度、GPU利用率和功耗进行衡量。

实验结果

研究问题

RQ1基于实时视频帧特征的动态DNN选择能否在不增加延迟的前提下提升边缘设备上的目标检测精度？
RQ2在实时边缘目标检测中，如何优化模型精度与计算成本之间的权衡？
RQ3哪些视频流特性（如目标大小、运动速度）最能预测某帧的最优DNN？
RQ4轻量级、低开销的决策机制能否优于周期性重新评估或启发式切换策略？
RQ5在保持或提升检测精度的前提下，边缘平台上GPU资源与功耗可降低到何种程度？

主要发现

在所有MOT17Det数据集中，TOD相较于YOLOv4-tiny-288，平均检测精度提升34.7%。
在MOT17-05数据集上，TOD在仅使用YOLOv4-416 45.1%的GPU资源和62.7%的GPU板卡功耗的同时，保持了完整精度。
每帧的中位数检测框大小是选择最优DNN的强预测因子，支持低开销、实时决策。
TOD的计算开销可忽略不计——仅涉及每帧中位数检测框大小的计算，与DNN推理延迟相比微不足道。
系统在所有MOT17Det序列中实现了与最佳单一DNN相当或更优的精度，包括动态摄像机和快速移动目标等挑战性场景。
通过网格搜索进行的超参数调优，确定了针对数据集特性和硬件约束的最优切换阈值（Hopt），确保在多样化应用场景下性能一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。