QUICK REVIEW

[논문 리뷰] Light-Weight RetinaNet for Object Detection

Yixing Li, Fengbo Ren|arXiv (Cornell University)|2019. 05. 24.

Advanced Neural Network Applications참고 문헌 18인용 수 27

한 줄 요약

이 논문은 가장 계산 비용이 높은 층—특히 상위 특징 피라미드 네트워크(FPN) 브랜치—에만 선택적으로 FLOPs를 감소시켜 경량화된 RetinaNet을 제안한다. 나머지 네트워크는 그대로 유지한다. 기존의 입력 이미지 스케일링과 비교해 더 나은 mAP-FLOPs 트레이드오프를 달성하며, 1.15배의 FLOPs 감소 시 0.1%의 mAP 향상과 1.8배의 FLOPs 감소 시 0.3%의 mAP 향상을 기록한다. 이는 기존의 지수적 감소 경향을 보이는 스케일링 방식보다 선형적인 감소 경향을 보이며, 성능 우월성을 입증한다.

ABSTRACT

Object detection has gained great progress driven by the development of deep learning. Compared with a widely studied task -- classification, generally speaking, object detection even need one or two orders of magnitude more FLOPs (floating point operations) in processing the inference task. To enable a practical application, it is essential to explore effective runtime and accuracy trade-off scheme. Recently, a growing number of studies are intended for object detection on resource constraint devices, such as YOLOv1, YOLOv2, SSD, MobileNetv2-SSDLite, whose accuracy on COCO test-dev detection results are yield to mAP around 22-25% (mAP-20-tier). On the contrary, very few studies discuss the computation and accuracy trade-off scheme for mAP-30-tier detection networks. In this paper, we illustrate the insights of why RetinaNet gives effective computation and accuracy trade-off for object detection and how to build a light-weight RetinaNet. We propose to only reduce FLOPs in computational intensive layers and keep other layer the same. Compared with most common way -- input image scaling for FLOPs-accuracy trade-off, the proposed solution shows a constantly better FLOPs-mAP trade-off line. Quantitatively, the proposed method result in 0.1% mAP improvement at 1.15x FLOPs reduction and 0.3% mAP improvement at 1.8x FLOPs reduction.

연구 동기 및 목표

RetinaNet과 같은 고정밀도 객체 탐지 네트워크는 분류 네트워크보다 훨씬 더 많은 FLOPs를 요구하므로, 높은 계산 비용 문제를 해결하기 위함이다.
mAP-30 티어의 탐지 네트워크에 대해 더 효과적인 FLOPs-정확도 트레이드오프 전략을 탐색하기 위함이며, 이러한 네트워크는 일반적으로 고성능 하드웨어에 배포된다.
전체 네트워크에 걸쳐 균일하게 감소시키는 것 대신, RetinaNet 내에서 가장 계산 비용이 높은 층들만 식별하고 최적화하기 위함이다.
탐지 헤드의 무거운 층들만 선택적으로 경량 아키텍처로 교체함으로써 정확도를 유지하면서 추론 비용을 줄이기 위함이다.

제안 방법

이 방법은 RetinaNet에서 가장 무거운 구성요소인 상위 FPN 브랜치(P3)에 초점을 맞추며, 이는 총 FLOPs의 48%를 차지한다. 이를 경량화된 블록 버전으로 교체한다.
경량화된 블록은 FLOPs 감소와 특징 표현력 유지 사이의 균형을 고려해 설계되었으며, 동일한 FLOPs 감소 수준에서 정확도 유지를 더 잘하는 점을 고려해 D-block-v3가 최적의 변종으로 선정되었다.
원래의 백본(ResNet-50)과 피처 피라미드 구조를 유지하면서, 오직 탐지 헤드의 회귀 및 분류 브랜치만 수정한다.
전체 아키텍처를 변경하는 것 대신, 정확도 저하를 방지하기 위해 가장 FLOPs 소비가 높은 구성요소들에만 선택적으로 적용한다.
모델 수렴을 유지하기 위해 FLOPs 감소 비율에 비례해 학습 스케줄을 연장하며, 네트워크 압축 연구의 원칙을 따르는 방식이다.
이 방법은 블록 단위로 FLOPs 분포가 불균형한 다른 FPN 기반 탐지 네트워크에도 일반화 가능하며, RetinaNet에 국한되지 않는다.

실험 결과

연구 질문

RQ1가장 계산 비용이 높은 층들에만 FLOPs를 선택적으로 감소시키는 것이 기존의 입력 이미지 스케일링 방식보다 더 나은 mAP-FLOPs 트레이드오프를 이끌 수 있는가?
RQ2왜 RetinaNet은 효과적인 FLOPs-정확도 트레이드오프를 제공하는가? 이를 기반으로 더 가벼운 버전을 구축할 수 있는가?
RQ3층별 최적화를 통해 FLOPs를 감소시킬 경우, 기존의 입력 스케일링 방식에서 관찰되는 지수적 감소 경향과는 대비하여 mAP의 선형 감소 경향이 나타나는가?
RQ4분류 작업에서 성공적으로 사용된 경량화된 블록 설계가 정확도 손실 없이 탐지 작업으로 효과적으로 이식 가능한가?
RQ5백본과 피처 피라미드를 그대로 유지하면서 오직 가장 무거운 탐지 헤드 층들만 최적화하는 방식이, 전반적인 감소 전략보다 성능 유지에 더 효과적인가?

주요 결과

제안된 방법은 기준 RetinaNet 대비 1.15배의 FLOPs 감소 시 0.1%의 mAP 향상을 달성한다.
1.8배의 FLOPs 감소 시, 기준 모델 대비 0.3%의 mAP 향상을 기록하며, 더 나은 트레이드오프 성능을 입증한다.
제안된 방법의 mAP 감소 곡선은 선형 경향을 보이며, 입력 이미지 스케일링은 지수적 감소를 보여, FLOPs가 낮아질수록 성능 격차가 점점 커진다.
동일한 FLOPs 감소 수준에서 D-block-v3는 MobileNet 기반 D-block-v1보다 더 높은 성능을 보이며, 이는 MobileNet 기반 블록이 탐지 헤드 교체에 최적화되어 있지 않음을 시사한다.
FLOPs-mAP 트레이드오프 플롯에서 빨간 선(제안 방법)은 파란 선(입력 스케일링)보다 항상 왼쪽 상단에 더 가까이 위치해 있으며, 더 나은 트레이드오프 성능을 확인한다.
이 방법은 FLOPs 분포가 불균형한 다른 FPN 기반 탐지 네트워크로도 일반화 가능하며, 효율적인 배포를 위한 확장 가능한 전략을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.