Skip to main content
QUICK REVIEW

[論文レビュー] Simple Training Strategies and Model Scaling for Object Detection

Xianzhi Du, Barret Zoph|arXiv (Cornell University)|Jun 30, 2021
Advanced Neural Network Applications参考文献 33被引用数 27
ひとこと要約

本論文は、物体検出のためのアーキテクチャ的および訓練/推論手法を系統的にアブレートし、 RetinaNet-RS および Cascade RCNN-RS への単純なスケーリングを提案し、ResNet/Backbone バックボーンおよび SpineNet バックボーンを用いたときに、速度と精度のパレート最適性が強く改善されることを示している。

ABSTRACT

The speed-accuracy Pareto curve of object detection systems have advanced through a combination of better model architectures, training and inference methods. In this paper, we methodically evaluate a variety of these techniques to understand where most of the improvements in modern detection systems come from. We benchmark these improvements on the vanilla ResNet-FPN backbone with RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in accuracy while being 30% faster in speed. We further provide simple scaling strategies to generate family of models that form two Pareto curves, named RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the speed-accuracy trade-off between the one-stage RetinaNet detectors and two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally, we show the ResNet architecture, with three minor architectural changes, outperforms EfficientNet as the backbone for object detection and instance segmentation systems.

研究の動機と目的

  • 検出性能の向上に最も寄与するアーキテクチャの変更および訓練/推論手法を特定する。
  • より強力なデータ拡張、正則化、長いトレーニング、そして精度が速度と精度に与える影響を評価する。
  • バックボーンの深さと入力解像度のトレードオフを取る単純なスケーリング戦略を提案し、Pareto効率の高いモデルファミリ(RetinaNet-RS および RCNN-RS)を生成する。
  • 新しいベースラインの下で、COCO および Waymo Open データセット全体で、one-stage RetinaNet と two-stage RCNN 検出器を比較する。

提案手法

  • 共通のアーキテクチャ変更(Squeeze-and-Excitation、活性化関数、モデルのステム)および訓練/推論手法(データ拡張、正則化、訓練スケジュール、float16 ベンチマーク)をアブレーションする。
  • SE モジュール、ResNet-D ステム、および SiLU 活性化を備えた ResNet バックボーンを変更して、段階的な利得を評価する。
  • 入力解像度とバックボーンの深さを変化させることによる単純なスケーリングを導入し、RetinaNet-RS および RCNN-RS モデルファミリを形成する。
  • COCO で RetinaNet-RS および Cascade RCNN-RS の検出器を評価し、Waymo Open Dataset では SpineNet バックボーンを用いて評価する。
  • 変化するバックボーンと解像度の下で、レイテンシ(float16/float32)と精度(AP, APs, APm, APl)をベンチマークする。

実験結果

リサーチクエスチョン

  • RQ1アーキテクチャの微調整と訓練/推論手法の組み合わせで、最小限の遅延コストで最大の精度向上をもたらすのはどれか。
  • RQ2単純なスケーリング戦略(入力解像度の増大とバックボーン深さの増加)が、one-stage 対 two-stage 検出器の速度-精度パレート曲線をどれだけシフトさせるか。
  • RQ3提案された RetinaNet-RS および Cascade RCNN-RS モデルファミリは、COCO および Waymo Open Dataset のドメイン全体に一般化できるか。
  • RQ4float16 精度の使用と後処理が全体のエンドツーエンドのレイテンシに与える影響は何か。
  • RQ5大きな入力解像度におけるバックボーンの選択(ResNet バリアント、SpineNet)は効率性の点でどう比較されるか。

主な発見

  • 最新のトレーニング手法とアーキテクチャの変更の組み合わせにより、COCO(ResNet-50 FPN、640 input)で vanilla RetinaNet に比べ 7.7% の AP 向上と 30% 高速な推論を達成。
  • RetinaNet-RS および Cascade RCNN-RS は、入力解像度とバックボーン深さをスケーリングすることにより 2 本の Pareto 曲線を形成し、スケールを問わず高い精度と速度を達成する。
  • ResNet152-FPN を用いた Cascade RCNN-RS は V100 で 119 ms per image において COCO の AP が 52.9% に達する; SpineNet143L バックボーンは COCO で 53.6% AP、Waymo Open で 71.2 AP/L1 に達する。
  • これらの設定において、単純なアーキテクチャ変更を含む ResNet バックボーンは、検出およびインスタンスセグメンテーションのバックボーンとして EfficientNet を上回ることができる。
  • float16 での推論は 1.5× から 1.7× の速度向上をもたらす一方、後処理(NMS)は検出器によってはレイテンシを支配する可能性があり、最適化の機会を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。