QUICK REVIEW

[논문 리뷰] PP-YOLOv2: A Practical Object Detector

Xin Huang, Xinxin Wang|arXiv (Cornell University)|2021. 04. 21.

Advanced Neural Network Applications참고 문헌 26인용 수 92

한 줄 요약

PP-YOLOv2는 PP-YOLO를 일련의 정교화로 향상시키며, COCO test-dev에서 약 69 FPS로 49.5% mAP를 달성하고 640 입력 및 FP16에서 TensorRT로 ~106.5 FPS를 달성합니다.

ABSTRACT

Being effective and efficient is essential to an object detector for practical use. To meet these two concerns, we comprehensively evaluate a collection of existing refinements to improve the performance of PP-YOLO while almost keep the infer time unchanged. This paper will analyze a collection of refinements and empirically evaluate their impact on the final model performance through incremental ablation study. Things we tried that didn't work will also be discussed. By combining multiple effective refinements, we boost PP-YOLO's performance from 45.9% mAP to 49.5% mAP on COCO2017 test-dev. Since a significant margin of performance has been made, we present PP-YOLOv2. In terms of speed, PP-YOLOv2 runs in 68.9FPS at 640x640 input size. Paddle inference engine with TensorRT, FP16-precision, and batch size = 1 further improves PP-YOLOv2's infer speed, which achieves 106.5 FPS. Such a performance surpasses existing object detectors with roughly the same amount of parameters (i.e., YOLOv4-CSP, YOLOv5l). Besides, PP-YOLOv2 with ResNet101 achieves 50.3% mAP on COCO2017 test-dev. Source code is at https://github.com/PaddlePaddle/PaddleDetection.

연구 동기 및 목표

추론 속도를 유지하면서 실용적 사용을 위한 객체 탐지 정확도를 향상시키는 것.
점진적 Ablation 프레임워크에서 일련의 정교화를 경험적으로 평가하는 것.
효율성을 해치지 않으면서 여러 트릭을 조합하는 실행 가능한 가이드라인을 제공한다.
PaddlePaddle와 TensorRT를 사용한 배포 친화적 성능을 입증한다.

제안 방법

ResNet50-vd-dcn 백본을 갖는 Baseline PP-YOLO.
PAN 넥, 넥에서의 Mish 활성화, 더 큰 입력 크기, 그리고 IoU 인지 브랜치를 포함한 점진적 정교화.
학습을 안정시키는 IoU 인지 손실의 소프트 레이블 형식.
8개 GPU에서 COCO train2017에 대해 SGD로 500K 반복 학습; 입력 크기 샘플링은 넓은 범위에서 이루어짐.
COCO minival에서 평가하고 최신 검출기와 비교.
ablation 및 최종 모델에 대해 FPS, 매개변수, GFLOPs, 및 mAP를 보고.

실험 결과

연구 질문

RQ1추론 시간의 큰 증가 없이 PP-YOLO를 개선할 수 있는 정교화는 무엇인가?
RQ2PAN, 넥에서의 Mish 활성화, 더 큰 입력 크기 등의 변화가 정확도와 속도 측면에서 어떻게 상호작용하는가?
RQ3재구성된 IoU 인지 손실이 학습 안정성과 mAP에 미치는 영향은 무엇인가?
RQ4동시대 검출기들(YOLOv4-CSP, YOLOv5l 등)과의 속도-정확도 트레이드오프에서 PP-YOLOv2의 비교는 어떤가?

주요 결과

방법	백본	크기	FPS (V100)	AP	AP 50	AP 75	AP S	AP M	AP L
PP-YOLOv2	ResNet50-vd-dcn	320	123.3	152.9	43.1%	61.7%	46.5%	19.7%	46.3%	61.8%
PP-YOLOv2	ResNet50-vd-dcn	416	102	145.1	46.3%	65.1%	50.3%	23.9%	50.2%	62.2%
PP-YOLOv2	ResNet50-vd-dcn	512	93.4	141.2	48.2%	67.1%	52.7%	27.7%	52.1%	62.1%
PP-YOLOv2	ResNet50-vd-dcn	608	72.1	109.9	49.2%	68.0%	54.1%	29.9%	52.8%	61.5%
PP-YOLOv2	ResNet50-vd-dcn	640	68.9	106.5	49.5%	68.2%	54.4%	30.7%	52.9%	61.2%
PP-YOLOv2	ResNet101-vd-dcn	512	69.8	116.8	49.0%	67.8%	53.8%	28.7%	53.0%	63.5%
PP-YOLOv2	ResNet101-vd-dcn	640	50.3	87.0	50.3%	69.0%	55.3%	31.6%	53.9%	62.4%

최종 PP-YOLOv2는 640 입력에서 ResNet50-vd-dcn으로 COCO test-dev에서 49.5% mAP를 달성하며 68.9 FPS를 기록한다.
PaddlePaddle과 TensorRT FP16를 사용하고 배치 크기 1일 때 PP-YOLOv2는 106.5 FPS에 도달한다.
유사한 매개변수 수에서 YOLOv4-CSP 및 YOLOv5l과 비교했을 때, PP-YOLOv2는 비슷한 속도에서 더 높은 mAP를 보인다.
백본을 ResNet101-vd-dcn으로 교체하면 일부 베이스라인(YOLOv5x 등)에 비해 더 빠른 추론과 함께 경쟁력 있는 mAP를 얻을 수 있다.
Ablation 시퀀스에서 neck의 PAN + Mish, 더 큰 입력 크기, IoU-인식 브랜치가 최종 최적화 이전에 mAP를 45.1%에서 49.1%로 함께 상승시킨다.
PP-YOLOv2가 Refinements를 적용한 후 원래 PP-YOLO baseline(45.1% mAP)보다 추론 비용을 크게 늘리지 않으면서 더 나은 성능을 발휘한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.