QUICK REVIEW

[論文レビュー] Simple Training Strategies and Model Scaling for Object Detection

Xianzhi Du, Barret Zoph|arXiv (Cornell University)|Jun 30, 2021

Advanced Neural Network Applications参考文献 33被引用数 27

ひとこと要約

本論文は、物体検出のためのアーキテクチャ的および訓練/推論手法を系統的にアブレートし、 RetinaNet-RS および Cascade RCNN-RS への単純なスケーリングを提案し、ResNet/Backbone バックボーンおよび SpineNet バックボーンを用いたときに、速度と精度のパレート最適性が強く改善されることを示している。

ABSTRACT

The speed-accuracy Pareto curve of object detection systems have advanced through a combination of better model architectures, training and inference methods. In this paper, we methodically evaluate a variety of these techniques to understand where most of the improvements in modern detection systems come from. We benchmark these improvements on the vanilla ResNet-FPN backbone with RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in accuracy while being 30% faster in speed. We further provide simple scaling strategies to generate family of models that form two Pareto curves, named RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the speed-accuracy trade-off between the one-stage RetinaNet detectors and two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally, we show the ResNet architecture, with three minor architectural changes, outperforms EfficientNet as the backbone for object detection and instance segmentation systems.

研究の動機と目的

検出性能の向上に最も寄与するアーキテクチャの変更および訓練/推論手法を特定する。
より強力なデータ拡張、正則化、長いトレーニング、そして精度が速度と精度に与える影響を評価する。
バックボーンの深さと入力解像度のトレードオフを取る単純なスケーリング戦略を提案し、Pareto効率の高いモデルファミリ（RetinaNet-RS および RCNN-RS）を生成する。
新しいベースラインの下で、COCO および Waymo Open データセット全体で、one-stage RetinaNet と two-stage RCNN 検出器を比較する。

提案手法

共通のアーキテクチャ変更（Squeeze-and-Excitation、活性化関数、モデルのステム）および訓練/推論手法（データ拡張、正則化、訓練スケジュール、float16 ベンチマーク）をアブレーションする。
SE モジュール、ResNet-D ステム、および SiLU 活性化を備えた ResNet バックボーンを変更して、段階的な利得を評価する。
入力解像度とバックボーンの深さを変化させることによる単純なスケーリングを導入し、RetinaNet-RS および RCNN-RS モデルファミリを形成する。
COCO で RetinaNet-RS および Cascade RCNN-RS の検出器を評価し、Waymo Open Dataset では SpineNet バックボーンを用いて評価する。
変化するバックボーンと解像度の下で、レイテンシ（float16/float32）と精度（AP, APs, APm, APl）をベンチマークする。

実験結果

リサーチクエスチョン

RQ1アーキテクチャの微調整と訓練/推論手法の組み合わせで、最小限の遅延コストで最大の精度向上をもたらすのはどれか。
RQ2単純なスケーリング戦略（入力解像度の増大とバックボーン深さの増加）が、one-stage 対 two-stage 検出器の速度-精度パレート曲線をどれだけシフトさせるか。
RQ3提案された RetinaNet-RS および Cascade RCNN-RS モデルファミリは、COCO および Waymo Open Dataset のドメイン全体に一般化できるか。
RQ4float16 精度の使用と後処理が全体のエンドツーエンドのレイテンシに与える影響は何か。
RQ5大きな入力解像度におけるバックボーンの選択（ResNet バリアント、SpineNet）は効率性の点でどう比較されるか。

主な発見

最新のトレーニング手法とアーキテクチャの変更の組み合わせにより、COCO（ResNet-50 FPN、640 input）で vanilla RetinaNet に比べ 7.7% の AP 向上と 30% 高速な推論を達成。
RetinaNet-RS および Cascade RCNN-RS は、入力解像度とバックボーン深さをスケーリングすることにより 2 本の Pareto 曲線を形成し、スケールを問わず高い精度と速度を達成する。
ResNet152-FPN を用いた Cascade RCNN-RS は V100 で 119 ms per image において COCO の AP が 52.9% に達する； SpineNet143L バックボーンは COCO で 53.6% AP、Waymo Open で 71.2 AP/L1 に達する。
これらの設定において、単純なアーキテクチャ変更を含む ResNet バックボーンは、検出およびインスタンスセグメンテーションのバックボーンとして EfficientNet を上回ることができる。
float16 での推論は 1.5× から 1.7× の速度向上をもたらす一方、後処理（NMS）は検出器によってはレイテンシを支配する可能性があり、最適化の機会を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。