QUICK REVIEW

[論文レビュー] ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch.

Rui Zhu, Shifeng Zhang|arXiv (Cornell University)|Oct 19, 2018

Advanced Neural Network Applications参考文献 39被引用数 24

ひとこと要約

本論文では、安定した学習のためのバッチ正則化と、空間情報を保持する新しいルート-ResNetバックボーンを導入することで、ImageNetの事前学習なしで、SOTAの性能を達成する、1ショットオブジェクト検出器を訓練するための手法であるScratchDetを提案する。このアプローチは、ImageNetの事前学習なしでPASCAL VOCおよびMS COCOで優れた精度を達成し、いくつかの事前学習済み1段階検出器を上回る性能を示す。

ABSTRACT

Current state-of-the-art object objectors are fine-tuned from the off-the-shelf networks pretrained on large-scale classification dataset ImageNet, which incurs some additional problems: 1) The classification and detection have different degrees of sensitivity to translation, resulting in the learning objective bias; 2) The architecture is limited by the classification network, leading to the inconvenience of modification. To cope with these problems, training detectors from scratch is a feasible solution. However, the detectors trained from scratch generally perform worse than the pretrained ones, even suffer from the convergence issue in training. In this paper, we explore to train object detectors from scratch robustly. By analysing the previous work on optimization landscape, we find that one of the overlooked points in current trained-from-scratch detector is the BatchNorm. Resorting to the stable and predictable gradient brought by BatchNorm, detectors can be trained from scratch stably while keeping the favourable performance independent to the network architecture. Taking this advantage, we are able to explore various types of networks for object detection, without suffering from the poor convergence. By extensive experiments and analysis on downsampling factor, we propose the Root-ResNet backbone network, which makes full use of the information from original images. Our ScratchDet achieves the state-of-the-art accuracy on PASCAL VOC 2007, 2012 and MS COCO among all the train-from-scratch detectors and even performs better than several one-stage pretrained methods. Codes will be made publicly available at https://github.com/KimSoybean/ScratchDet

研究の動機と目的

ImageNet事前学習モデルからの微調整における、目的関数バイアスやアーキテクチャ制限といった課題を解決すること。
従来のランダム初期化からの学習で一般的に見られる収束問題を克服し、信頼性の高い学習を可能にすること。
分類ネットワークへの依存を排除することで、オブジェクト検出におけるアーキテクチャの柔軟性を高めること。
入力画像からの空間情報を減損させないよう、ダウンサンプリングを低減したバックボーンネットワークの設計。
標準ベンチマークで、すべてのランダム初期化からの検出器の中でSOTAの精度を達成すること。

提案手法

学習中の勾配安定化のため、バッチ正則化を活用し、ランダム初期化からの信頼性の高い収束を可能にする。
最適化の様子を分析し、ランダム初期化からの成功した学習においてバッチ正則化が重要な要因であることを同定する。
入力画像からの高解像度特徴を保持するため、ダウンサンプリング要因を低減したバックボーンとして、ルート-ResNetを提案する。
ルート特徴マップを最終層に直接接続する残差ブロック設計を採用し、特徴の再利用を向上させる。
バックボーンアーキテクチャの最適化を図るため、ダウンサンプリング要因に対する広範なアブレーションスタディを実施する。
標準的な1段階検出ヘッドを用いて、ランダム初期化からエンドツーエンドで検出器を学習する。

実験結果

リサーチクエスチョン

RQ1ImageNetからの事前学習なしで、性能がImageNet微調整済みモデルと同等のオブジェクト検出器をランダム初期化から学習可能か？
RQ2バッチ正則化は、ランダム初期化からの検出器学習において、どのように学習の安定化に寄与しているか？
RQ3ランダム初期化からの学習において、バックボーンのダウンサンプリング要因は検出精度にどのように影響するか？
RQ4ルート-ResNetのようなカスタムバックボーンは、事前学習なしでも特徴表現を向上させられるか？
RQ5事前学習バイアスを排除することで、検出における一般化性能や性能が向上するか？

主な発見

ScratchDetは、すべてのランダム初期化からの検出器の中で、PASCAL VOC 2007および2012でSOTAの平均平均精度（mAP）を達成した。
MS COCOでは、ImageNet事前学習を用いた複数の1段階検出器を上回る性能を示した。
提案されたルート-ResNetバックボーンは、ダウンサンプリングを低減することで特徴表現を著しく向上させ、より高い検出精度を達成した。
バッチ正則化は、事前学習なしでランダム初期化からの安定した学習を可能にする上で不可欠であり、信頼性の高い収束を可能にした。
広範なアブレーションスタディにより、ダウンサンプリング要因の低減が性能向上に寄与することが確認され、特に小サイズオブジェクト検出において顕著であった。
ImageNet事前学習を一切使用せず、エンドツーエンドのランダム初期化からの学習が実現可能であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。