QUICK REVIEW

[논문 리뷰] Detecting soccer balls with reduced neural networks: a comparison of multiple architectures under constrained hardware scenarios

Douglas De Rizzo Meneghetti, Thiago Pedro Donadon Homem|arXiv (Cornell University)|2020. 09. 28.

Advanced Neural Network Applications참고 문헌 42인용 수 10

한 줄 요약

이 논문은 모바일 로봇 CPU와 같은 제약된 하드웨어 환경에서 실시간 축구공 검출을 위한 축소된 신경망 아키텍처(MobileNetV2, MobileNetV3, YOLOv3, TinyYOLOv3, YOLOv4, TinyYOLOv4)를 평가한다. 결과적으로, CPU에서 MobileNetV3가 mAP-추론 시간의 최적 균형을 이루며 가장 우수한 성능를 보였고, YOLO 모델은 GPU에서는 뛰어난 성능를 보이나 CPU에서는 성능이 열 劣하다.

ABSTRACT

Object detection techniques that achieve state-of-the-art detection accuracy employ convolutional neural networks, implemented to have optimal performance in graphics processing units. Some hardware systems, such as mobile robots, operate under constrained hardware situations, but still benefit from object detection capabilities. Multiple network models have been proposed, achieving comparable accuracy with reduced architectures and leaner operations. Motivated by the need to create an object detection system for a soccer team of mobile robots, this work provides a comparative study of recent proposals of neural networks targeted towards constrained hardware environments, in the specific task of soccer ball detection. We train multiple open implementations of MobileNetV2 and MobileNetV3 models with different underlying architectures, as well as YOLOv3, TinyYOLOv3, YOLOv4 and TinyYOLOv4 in an annotated image data set captured using a mobile robot. We then report their mean average precision on a test data set and their inference times in videos of different resolutions, under constrained and unconstrained hardware configurations. Results show that MobileNetV3 models have a good trade-off between mAP and inference time in constrained scenarios only, while MobileNetV2 with high width multipliers are appropriate for server-side inference. YOLO models in their official implementations are not suitable for inference in CPUs.

연구 동기 및 목표

모바일 로봇에서 실시간 축구공 검출을 위한 최신 경량 신경망 아키텍처를 평가한다.
모바일 로봇에서 흔히 사용되는 자원 제약이 있는 CPU에 딥러닝 모델을 구현하는 데 도전하는 문제를 다룬다.
CPU 전용(i5-4210U), 고성능 GPU(V100), 서버급 CPU(Xeon) 등의 다양한 하드웨어 구성에서의 모델 성능을 비교한다.
여러 입력 해상도(480p에서 4K까지)에서 추론 속도와 평균 평균 정확도(mAP)를 분석한다.
임베디드 및 모바일 로봇 환경에서 효율적인 모델 선택을 위한 실용적 지침을 제공한다.

제안 방법

가변적인 너비 배수(0.35–1.0)와 입력 해상도를 사용해 오픈소스 구현체를 기반으로 한 MobileNetV2 및 MobileNetV3를 훈련시켰다.
동일한 데이터셋을 사용해 YOLOv3, TinyYOLOv3, YOLOv4, TinyYOLOv4의 공식 구현체를 평가하였다.
모바일 로봇이 촬영한 축구공 이미지로 구성된 커스텀 데이터셋을 사용하였으며, 객체 검출을 위해 애너테이션을 수행하였다.
Intel i5-4210U CPU, NVIDIA Tesla V100 GPU, Intel Xeon Gold 5118 CPU의 세 하드웨어 플랫폼에서 네 가지 영상 해상도(480×360에서 1920×1080까지)에 대해 프레임당 추론 시간을 측정하였다.
검출 정확도 평가를 위해 보류된 테스트 세트에서 평균 평균 정확도(mAP)를 보고하였다.
추론 시간 분포를 비교하기 위해 통계 분석(Kolmogorov-Smirnov 검정)을 수행하였다.

실험 결과

연구 질문

RQ1MobileNetV2 및 MobileNetV3 모델은 CPU 전용 하드웨어에서 GPU 대비 mAP와 추론 시간 측면에서 어떻게 성능을 내는가?
RQ2입력 해상도와 너비 배수는 MobileNet 기반 모델의 추론 속도와 정확도에 어떤 영향을 미치는가?
RQ3YOLO 및 TinyYOLO 모델은 실시간 추론을 위해 설계되었음에도 불구하고, 왜 CPU에서는 성능이 열 劣한가?
RQ4제약된 CPU 전용 모바일 로봇 환경에서 mAP와 추론 시간 간 최적의 균형을 이루는 모델 아키텍처는 무엇인가?
RQ5경량 모델의 성능는 다양한 하드웨어 플랫폼(CPU 대비 GPU)과 입력 해상도에 따라 어떻게 달라지는가?

주요 결과

MobileNetV3 모델은 Intel i5-4210U CPU에서 가장 높은 mAP(78.4%)와 가장 낮은 추론 시간(55.2 ms)을 기록하여 제약된 하드웨어 환경에서 다른 모델들을 압도적으로 앞섰다.
MobileNetV2는 너비 배수 1.0일 때 NVIDIA Tesla V100 GPU에서 가장 높은 mAP(85.1%)와 가장 빠른 추론(47.2 ms)을 기록하여 서버 기반 배포에 적합함을 보였다.
YOLOv3 및 TinyYOLOv3는 i5-4210U CPU에서 상당히 높은 추론 시간(100 ms 이상)을 보였으며, GPU에서는 효율적이지만 CPU에서는 호환성이 열 劣함을 시사했다.
MobileNet 모델의 추론 시간은 입력 해상도가 낮아질수록 크게 감소했으며, 1920×1080에서 480×360로 내려갈 경우 40–50%의 속도 향상이 관찰되었다.
통계 분석을 통해 i5-4210U CPU와 V100 GPU의 추론 시간 분포 간 유의미한 차이가 없음을 확인하였으며(p = 0.97371), 이는 두 플랫폼 간 유사한 성능 추세를 보임을 의미한다.
V100 GPU에서 MobileNetV2(너비 배수 1.0)는 가장 높은 mAP(85.1%)를 기록하였고, i5-4210U CPU에서 MobileNetV3(small)는 가장 높은 mAP(78.4%)를 기록하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.