[論文レビュー] Consistent Optimization for Single-Shot Object Detection
本論文は、推論時と同一の修正アンカースを訓練時に使用することで、1ショットオブジェクト検出における一貫性のある最適化を提案する。RetinaNetを変更し、推論時と同一の修正アンカース上で分類と回帰を最適化することで、アーキテクチャの変更や追加パラメータなしに1.0 APの向上(COCO上40.1 AP)を達成し、ResNet-101バックボーンを用いたすべての既存1段階検出器を上回る性能を発揮する。
We present consistent optimization for single stage object detection. Previous works of single stage object detectors usually rely on the regular, dense sampled anchors to generate hypothesis for the optimization of the model. Through an examination of the behavior of the detector, we observe that the misalignment between the optimization target and inference configurations has hindered the performance improvement. We propose to bride this gap by consistent optimization, which is an extension of the traditional single stage detector's optimization strategy. Consistent optimization focuses on matching the training hypotheses and the inference quality by utilizing of the refined anchors during training. To evaluate its effectiveness, we conduct various design choices based on the state-of-the-art RetinaNet detector. We demonstrate it is the consistent optimization, not the architecture design, that yields the performance boosts. Consistent optimization is nearly cost-free, and achieves stable performance gains independent of the model capacities or input scales. Specifically, utilizing consistent optimization improves RetinaNet from 39.1 AP to 40.1 AP on COCO dataset without any bells or whistles, which surpasses the accuracy of all existing state-of-the-art one-stage detectors when adopting ResNet-101 as backbone. The code will be made available.
研究の動機と目的
- 1ショットオブジェクト検出器における訓練ターゲット(元のアンカー)と推論予測(修正アンカー)の不一致を解消すること。
- 訓練時に修正アンカーを用いた一貫性のある最適化が、検出精度を向上させるかを調査すること。
- 性能向上がアーキテクチャ的革新ではなく、最適化戦略そのものに起因することを示すこと。
- 異なるモデル容量や入力スケールにおいて、安定的かつほぼコストフリーな精度向上を達成すること。
提案手法
- 訓練時に元のアンカーとその修正版(回帰によるもの)の両方を最適化ターゲットとして使用する訓練戦略を導入する。
- 分類および回帰ヘッドを変更し、推論時と同一の修正アンカー予測上で最適化を行うことで、訓練と推論の整合性を保証する。
- 2ストリーム訓練プロセスを実装し、モデルが推論時と同一の修正アンカー仮説上で分類と回帰を学習するようにする。
- カスケードR-CNNに類似した設計を採用するが、1段階検出器に適応させ、カスケード推論を回避する。
- バックボーンやアーキテクチャを変更せずに、RetinaNetに一貫性のある最適化を適用し、ConRetinaNetを構築する。
- 公平な比較のため、スケールジッタと長時間の訓練スケジュールを適用する。
実験結果
リサーチクエスチョン
- RQ1訓練ターゲット(元のアンカー)と推論予測(修正アンカー)の不一致が、1ショット検出器の性能を制限しているか?
- RQ2修正アンカー最適化による訓練-推論の一貫性向上が、測定可能な精度向上をもたらすか?
- RQ3性能向上はアーキテクチャ的変更に起因するのか、それとも最適化戦略そのものに起因するのか?
- RQ4一貫性のある最適化は、異なるモデル容量や入力解像度においても安定した向上をもたらすか?
主な発見
- 一貫性のある最適化により、ResNet-101を用いたRetinaNetはCOCO上で39.1 APから40.1 APに向上し、すべての既存1段階検出器を上回る。
- 性能向上は、追加パラメータや装飾的要素なしに、異なるモデル容量や入力スケールにおいても安定しており、ほぼコストフリーである。
- ConRetinaNet-ResNet-101はCOCO test-devで44.2 AP、43.5 AP、53.3 APを達成し、RefineDet、DSSD、CornerNetを上回る。
- 設計選択肢のアブレーションスタディにより、向上はアーキテクチャ的設計ではなく、最適化の一貫性に起因することが示された。
- ResNet-50バックボーンでさえ、ConRetinaNetは40.2 APを達成し、DSSD-ResNet-101やRefineDet-ResNet-101を上回る。
- 計算コストやパラメータの追加がほとんどないため、既存の1段階検出器に広く適用可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。