QUICK REVIEW

[논문 리뷰] Towards High Performance Video Object Detection for Mobiles

Xizhou Zhu, Jifeng Dai|arXiv (Cornell University)|2018. 04. 16.

Advanced Neural Network Applications참고 문헌 39인용 수 35

한 줄 요약

이 논문은 스parse 키 프레임, 소형 흐름 네트워크(Light Flow), 그리고 흐름 유도 GRU를 활용하여 모바일 기기용 경량이고 엔드 투 엔드 영상 객체 검출 시스템을 제안한다. 이는 화웨이 메이트 8에서 25.6 fps에서 60.2% mAP 성능을 달성하여, 모바일 플랫폼에서 고정확도로 실시간 성능을 내는 데 있어 새로운 최고 성능을 기록한다.

ABSTRACT

Despite the recent success of video object detection on Desktop GPUs, its architecture is still far too heavy for mobiles. It is also unclear whether the key principles of sparse feature propagation and multi-frame feature aggregation apply at very limited computational resources. In this paper, we present a light weight network architecture for video object detection on mobiles. Light weight image object detector is applied on sparse key frames. A very small network, Light Flow, is designed for establishing correspondence across frames. A flow-guided GRU module is designed to effectively aggregate features on key frames. For non-key frames, sparse feature propagation is performed. The whole network can be trained end-to-end. The proposed system achieves 60.2% mAP score at speed of 25.6 fps on mobiles (e.g., HuaWei Mate 8).

연구 동기 및 목표

제한된 계산 자원을 가진 모바일 기기에서 고정확도 영상 객체 검출을 구현하는 데 도전하는 것.
희박한 특징 전파와 다중 프레임 특징 집합이 극한의 계산 제약 조건 하에서도 여전히 효과적인지 조사하는 것.
모바일 하드웨어에서 실시간 추론 속도를 확보하면서도 고정확도를 유지하는 시스템을 설계하는 것.
경량 이미지 검출, 흐름 추정, 시간적 특징 집합을 하나의 엔드 투 엔드 학습 가능한 아키텍처로 통합하는 것.
기존 방법에 비해 모바일 영상 객체 검출의 속도-정확도 트레이드오프에서 뚜렷한 향상을 이끌어내는 것.

제안 방법

계산 부담을 줄이기 위해 희박한 키 프레임에서만 경량 이미지 객체 검출기(Light-Head R-CNN 및 딥수어블리 세퍼러블 컨볼루션 기반)를 적용한다.
실시간 광학 흐름 추정을 위한 매우 작은 딥 네트워크인 Light Flow를 도입하여 모바일 추론에 최적화한다.
흐름 예측을 사용해 특징을 공간적으로 정렬함으로써 키 프레임 간 특징을 집계하는 흐름 유도 GRU 모듈을 설계한다.
Light Flow에서 추정한 흐름을 사용해 비키 프레임에서 희박한 특징 전파를 수행하여 키 프레임의 특징을 전달한다.
검출, 흐름 추정, 특징 집합을 동시에 최적화하여 전체 시스템을 엔드 투 엔드로 학습시킨다.
키 프레임 간격을 10 프레임으로 설정하고, 속도와 정확도를 균형 잡기 위해 입력 해상도를 조정하며, 흐름 네트워크 해상도는 검출 네트워크 해상도의 절반으로 설정한다.

실험 결과

연구 질문

RQ1모바일 기기의 극한의 계산 제약 조건 하에서도 희박한 특징 전파와 다중 프레임 특징 집합 원칙이 효과적으로 적용될 수 있는가?
RQ2실시간 추론을 가능하게 하면서도 특징 정렬에 충분한 정확도를 유지할 수 있도록, 경량 흐름 추정 네트워크를 어떻게 설계할 수 있는가?
RQ3메모리와 속도 제약 조건이 있는 모바일 플랫폼에서 흐름 유도 GRU 모듈이 장거리 시간적 특징을 효과적으로 집계할 수 있는가?
RQ4키 프레임 검출, 기반 흐름 전파, 시간적 집합을 조합했을 때 모바일 기기에서 영상 객체 검출의 구현 가능한 속도-정확도 트레이드오프는 어떠한가?
RQ5통합된 전체 파이프라인의 엔드 투 엔드 학습이 단계별 또는 비엔드 투 엔드 접근 방식보다 성능 향상에 뚜렷한 기여를 하는가?

주요 결과

제안된 시스템은 화웨이 메이트 8에서 25.6 fps에서 ImageNet VID 검증 세트에서 60.2% mAP 성능을 달성하여 실시간 모바일 영상 객체 검출 분야에서 새로운 최고 성능을 기록했다.
이전 최고 성능 방법인 Fast YOLO보다 10배 이상 빠른 속도를 기록하면서도 정확도는 유사하거나 초월했으며, 각각 0.3 fps와 25.6 fps의 성능을 기록했다.
YOLOv2, SSDLite, Tiny YOLO는 각각 58.7%, 57.1%, 44.1%의 mAP를 기록했지만 매우 낮은 프레임 레이트(0.3, 3.8, 2.2 fps)에서 작동하여 제안된 방법의 우수성을 입증했다.
Light Flow의 사용 덕분에 모바일 기기에서 실시간 흐름 추정이 가능해져 희박한 특징 전파가 실질적으로 구현 가능해졌다.
흐름 유도 GRU 모듈은 키 프레임 간 특징을 효과적으로 집계하여 메모리나 계산 비용을 과도하게 증가시키지 않으면서도 검출 정확도를 향상시켰다.
전체 파이프라인의 엔드 투 엔드 학습이 비엔드 투 엔드 또는 단계별 학습보다 성능 향상에 뚜렷한 기여를 하며, 추론 실험 결과로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.