QUICK REVIEW

[論文レビュー] PP-YOLOv2: A Practical Object Detector

Xin Huang, Xinxin Wang|arXiv (Cornell University)|Apr 21, 2021

Advanced Neural Network Applications参考文献 26被引用数 92

ひとこと要約

PP-YOLOv2は、PP-YOLOを一連の改良で段階的に評価し、COCO test-devで約69 FPS、49.5%のmAPを達成し、640入力とFP16でTensorRTを用いた場合は106.5 FPS。

ABSTRACT

Being effective and efficient is essential to an object detector for practical use. To meet these two concerns, we comprehensively evaluate a collection of existing refinements to improve the performance of PP-YOLO while almost keep the infer time unchanged. This paper will analyze a collection of refinements and empirically evaluate their impact on the final model performance through incremental ablation study. Things we tried that didn't work will also be discussed. By combining multiple effective refinements, we boost PP-YOLO's performance from 45.9% mAP to 49.5% mAP on COCO2017 test-dev. Since a significant margin of performance has been made, we present PP-YOLOv2. In terms of speed, PP-YOLOv2 runs in 68.9FPS at 640x640 input size. Paddle inference engine with TensorRT, FP16-precision, and batch size = 1 further improves PP-YOLOv2's infer speed, which achieves 106.5 FPS. Such a performance surpasses existing object detectors with roughly the same amount of parameters (i.e., YOLOv4-CSP, YOLOv5l). Besides, PP-YOLOv2 with ResNet101 achieves 50.3% mAP on COCO2017 test-dev. Source code is at https://github.com/PaddlePaddle/PaddleDetection.

研究の動機と目的

実用利用時の推論速度を維持しつつ物体検出精度を向上させる。
インクリメンタルなアブレーションフレームワークで改良のスイートを経験的に評価する。
効率を損なうことなくトリックを組み合わせるための実用的な指針を提供する。
PaddlePaddleとTensorRTを用いたデプロイに適した性能を示す。

提案手法

BackboneをResNet50-vd-dcnとするBaseline PP-YOLO.
PANネック、ネック部のMish活性化、大きい入力サイズ、IoU認識ブランチを含む段階的改良.
訓練を安定化させるIoU認識損失のソフトラベル形式化.
8GPUによるCOCO train2017で500K反復のSGDを用いた訓練、広範な範囲からの入力サイズサンプリング。
COCO minivalでの評価と最先端検出器との比較。
アブレーションで報告されたFPS、パラメータ、GFLOPs、mAPを各段階および最終モデルで示す。

実験結果

リサーチクエスチョン

RQ1PP-YOLOの推論時間を大幅に増加させずに、どのような改良が精度を向上させられるか。
RQ2PAN、ネック部のMish活性化、より大きい入力サイズは、精度と速度のトレードオフにおいてどのように相互作用するか。
RQ3IoU認識損失の再設計は訓練の安定性とmAPにどのような影響を与えるか。
RQ4PP-YOLOv2は同時代の検出器（例：YOLOv4-CSP、YOLOv5l）と比較して、速度と精度のトレードオフでどうなるか。

主な発見

手法	バックボーン	サイズ	FPS (V100)	AP	AP 50	AP 75	AP S	AP M	AP L
PP-YOLOv2	ResNet50-vd-dcn	320	123.3	152.9	43.1%	61.7%	46.5%	19.7%	46.3%	61.8%
PP-YOLOv2	ResNet50-vd-dcn	416	102	145.1	46.3%	65.1%	50.3%	23.9%	50.2%	62.2%
PP-YOLOv2	ResNet50-vd-dcn	512	93.4	141.2	48.2%	67.1%	52.7%	27.7%	52.1%	62.1%
PP-YOLOv2	ResNet50-vd-dcn	608	72.1	109.9	49.2%	68.0%	54.1%	29.9%	52.8%	61.5%
PP-YOLOv2	ResNet50-vd-dcn	640	68.9	106.5	49.5%	68.2%	54.4%	30.7%	52.9%	61.2%
PP-YOLOv2	ResNet101-vd-dcn	512	69.8	116.8	49.0%	67.8%	53.8%	28.7%	53.0%	63.5%
PP-YOLOv2	ResNet101-vd-dcn	640	50.3	87.0	50.3%	69.0%	55.3%	31.6%	53.9%	62.4%

最終的なPP-YOLOv2は、ResNet50-vd-dcnで640入力時、68.9 FPSでCOCO test-devにおける49.5%のmAPを達成。
PaddlePaddleとTensorRT FP16を用き、バッチサイズ1でPP-YOLOv2は106.5 FPSに達する。
同等のパラメータ数でYOLOv4-CSPおよびYOLOv5lと比較して、同様の速度域でのmAPが上回る。
BackboneをResNet101-vd-dcnに置換すると、一部ベースライン（例：YOLOv5x）よりも高速な推論で競争力のあるmAPを得られる。
アブレーション列は、PAN＋Mish in neck、大きい入力サイズ、IoU-awareブランチを組み合わせると、最終的な最適化前にmAPを45.1%から49.1%へ引き上げることを示している。
PP-YOLOv2は、改良を適用した後、元のPP-YOLOベースライン（45.1% mAP）を上回り、推論コストを大幅に増やすことなく改善している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。