QUICK REVIEW

[論文レビュー] Detecting soccer balls with reduced neural networks: a comparison of multiple architectures under constrained hardware scenarios

Douglas De Rizzo Meneghetti, Thiago Pedro Donadon Homem|arXiv (Cornell University)|Sep 28, 2020

Advanced Neural Network Applications参考文献 42被引用数 10

ひとこと要約

本論文は、モバイルロボットのCPUなどの制限付きハードウェア上でリアルタイムのサッカーボール検出を実現するため、縮小されたニューラルネットワークアーキテクチャ（MobileNetV2、MobileNetV3、YOLOv3、TinyYOLOv3、YOLOv4、TinyYOLOv4）を評価している。結果として、CPU上ではMobileNetV3がmAPと推論時間のトレードオフにおいて最良のパフォーマンスを示した一方、YOLOモデルはGPUでは優れた性能を示すがCPU上では著しく性能を発揮しなかった。

ABSTRACT

Object detection techniques that achieve state-of-the-art detection accuracy employ convolutional neural networks, implemented to have optimal performance in graphics processing units. Some hardware systems, such as mobile robots, operate under constrained hardware situations, but still benefit from object detection capabilities. Multiple network models have been proposed, achieving comparable accuracy with reduced architectures and leaner operations. Motivated by the need to create an object detection system for a soccer team of mobile robots, this work provides a comparative study of recent proposals of neural networks targeted towards constrained hardware environments, in the specific task of soccer ball detection. We train multiple open implementations of MobileNetV2 and MobileNetV3 models with different underlying architectures, as well as YOLOv3, TinyYOLOv3, YOLOv4 and TinyYOLOv4 in an annotated image data set captured using a mobile robot. We then report their mean average precision on a test data set and their inference times in videos of different resolutions, under constrained and unconstrained hardware configurations. Results show that MobileNetV3 models have a good trade-off between mAP and inference time in constrained scenarios only, while MobileNetV2 with high width multipliers are appropriate for server-side inference. YOLO models in their official implementations are not suitable for inference in CPUs.

研究の動機と目的

モバイルロボティクスにおけるリアルタイムのサッカーボール検出を目的とした最新の軽量ニューラルネットワークの評価。
モバイルロボットに一般的に見られるリソース制限のあるCPUに深層学習モデルをデプロイする課題に対処。
CPUオンリーモード（i5-4210U）、ハイエンドGPU（V100）、サーバークラスCPU（Xeon）の異なるハードウェア構成におけるモデルパフォーマンスの比較。
複数の入力解像度（480pから4K）における推論速度と平均平均精度（mAP）の分析。
組み込み型モバイルロボティクス環境における効率的なモデル選定の実用的指針を提供。

提案手法

幅の乗数（0.35～1.0）と入力解像度を変更したMobileNetV2およびMobileNetV3のオープンソース実装を訓練。
同じデータセット上でYOLOv3、TinyYOLOv3、YOLOv4、TinyYOLOv4の公式実装を使用して評価。
モバイルロボットが撮影したサッカーボール画像から構築したカスタムデータセットを用い、物体検出用にアノテーションを実施。
Intel i5-4210U CPU、NVIDIA Tesla V100 GPU、Intel Xeon Gold 5118 CPUの3つのハードウェアプラットフォームで、4つの動画解像度（480×360から1920×1080）における1フレームあたりの推論時間を測定。
ホールドアウトされたテストセットにおける平均平均精度（mAP）を報告し、検出精度を評価。
推論時間の分布がCPUとGPUプラットフォームで有意に異なるかどうかを検証する統計的分析（コルモゴロフ・スミルノフ検定）を実施。

実験結果

リサーチクエスチョン

RQ1MobileNetV2およびMobileNetV3モデルは、CPUオンリーモードの環境においてGPUと比較してmAPと推論時間の両面でどのように性能を発揮するか？
RQ2入力解像度と幅の乗数が、MobileNetベースのモデルにおける推論速度と精度に与える影響は何か？
RQ3YOLOおよびTinyYOLOモデルは、リアルタイム推論を想定して設計されているにもかかわらず、なぜCPU上では著しく性能を発揮しないのか？
RQ4制限付きのCPUオンリーモードのモバイルロボット環境において、mAPと推論時間の両面で最良のトレードオフを達成するモデルアーキテクチャは何か？
RQ5軽量モデルのパフォーマンスは、異なるハードウェアプラットフォーム（CPU対GPU）および異なる入力解像度においてどのように変化するか？

主な発見

MobileNetV3モデルはIntel i5-4210U CPU上で最高のmAP（78.4％）と最短の推論時間（55.2 ms）を達成し、制限付きハードウェア環境において他のモデルを上回った。
MobileNetV2（幅乗数1.0）はNVIDIA Tesla V100 GPU上で最高のmAP（85.1％）と最速の推論時間（47.2 ms）を達成し、サーバー側のデプロイに適していることが示された。
YOLOv3およびTinyYOLOv3はi5-4210U CPU上で顕著に高い推論時間（100 ms以上）を示し、GPU上での効率性とは対照的にCPUでの互換性が著しく低いことが判明した。
MobileNetモデルの推論時間は入力解像度が低下するにつれて顕著に短縮され、1920×1080から480×360にダウンスケーリングした際には40～50％の高速化が観察された。
統計的分析により、i5-4210U CPUとV100 GPU上での推論時間分布に有意差は認められなかった（p = 0.97371）、これは両プラットフォーム間で類似したパフォーマンストレンドが存在することを示唆している。
V100 GPU上ではMobileNetV2（幅乗数1.0）が最高のmAP（85.1％）を達成した一方、i5-4210U CPU上ではMobileNetV3（スモール）が最高のmAP（78.4％）を記録した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。