[論文レビュー] Simple Training Strategies and Model Scaling for Object Detection
本論文は、物体検出のためのアーキテクチャ的および訓練/推論手法を系統的にアブレートし、 RetinaNet-RS および Cascade RCNN-RS への単純なスケーリングを提案し、ResNet/Backbone バックボーンおよび SpineNet バックボーンを用いたときに、速度と精度のパレート最適性が強く改善されることを示している。
The speed-accuracy Pareto curve of object detection systems have advanced through a combination of better model architectures, training and inference methods. In this paper, we methodically evaluate a variety of these techniques to understand where most of the improvements in modern detection systems come from. We benchmark these improvements on the vanilla ResNet-FPN backbone with RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in accuracy while being 30% faster in speed. We further provide simple scaling strategies to generate family of models that form two Pareto curves, named RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the speed-accuracy trade-off between the one-stage RetinaNet detectors and two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally, we show the ResNet architecture, with three minor architectural changes, outperforms EfficientNet as the backbone for object detection and instance segmentation systems.
研究の動機と目的
- 検出性能の向上に最も寄与するアーキテクチャの変更および訓練/推論手法を特定する。
- より強力なデータ拡張、正則化、長いトレーニング、そして精度が速度と精度に与える影響を評価する。
- バックボーンの深さと入力解像度のトレードオフを取る単純なスケーリング戦略を提案し、Pareto効率の高いモデルファミリ(RetinaNet-RS および RCNN-RS)を生成する。
- 新しいベースラインの下で、COCO および Waymo Open データセット全体で、one-stage RetinaNet と two-stage RCNN 検出器を比較する。
提案手法
- 共通のアーキテクチャ変更(Squeeze-and-Excitation、活性化関数、モデルのステム)および訓練/推論手法(データ拡張、正則化、訓練スケジュール、float16 ベンチマーク)をアブレーションする。
- SE モジュール、ResNet-D ステム、および SiLU 活性化を備えた ResNet バックボーンを変更して、段階的な利得を評価する。
- 入力解像度とバックボーンの深さを変化させることによる単純なスケーリングを導入し、RetinaNet-RS および RCNN-RS モデルファミリを形成する。
- COCO で RetinaNet-RS および Cascade RCNN-RS の検出器を評価し、Waymo Open Dataset では SpineNet バックボーンを用いて評価する。
- 変化するバックボーンと解像度の下で、レイテンシ(float16/float32)と精度(AP, APs, APm, APl)をベンチマークする。
実験結果
リサーチクエスチョン
- RQ1アーキテクチャの微調整と訓練/推論手法の組み合わせで、最小限の遅延コストで最大の精度向上をもたらすのはどれか。
- RQ2単純なスケーリング戦略(入力解像度の増大とバックボーン深さの増加)が、one-stage 対 two-stage 検出器の速度-精度パレート曲線をどれだけシフトさせるか。
- RQ3提案された RetinaNet-RS および Cascade RCNN-RS モデルファミリは、COCO および Waymo Open Dataset のドメイン全体に一般化できるか。
- RQ4float16 精度の使用と後処理が全体のエンドツーエンドのレイテンシに与える影響は何か。
- RQ5大きな入力解像度におけるバックボーンの選択(ResNet バリアント、SpineNet)は効率性の点でどう比較されるか。
主な発見
- 最新のトレーニング手法とアーキテクチャの変更の組み合わせにより、COCO(ResNet-50 FPN、640 input)で vanilla RetinaNet に比べ 7.7% の AP 向上と 30% 高速な推論を達成。
- RetinaNet-RS および Cascade RCNN-RS は、入力解像度とバックボーン深さをスケーリングすることにより 2 本の Pareto 曲線を形成し、スケールを問わず高い精度と速度を達成する。
- ResNet152-FPN を用いた Cascade RCNN-RS は V100 で 119 ms per image において COCO の AP が 52.9% に達する; SpineNet143L バックボーンは COCO で 53.6% AP、Waymo Open で 71.2 AP/L1 に達する。
- これらの設定において、単純なアーキテクチャ変更を含む ResNet バックボーンは、検出およびインスタンスセグメンテーションのバックボーンとして EfficientNet を上回ることができる。
- float16 での推論は 1.5× から 1.7× の速度向上をもたらす一方、後処理(NMS)は検出器によってはレイテンシを支配する可能性があり、最適化の機会を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。