[論文レビュー] Single-Shot Refinement Neural Network for Object Detection
RefineDetはアンカーリファインメントモジュール(ARM)とオブジェクト検出モジュール(ODM)を連携させ、Transfer Connection Blocksで結ぶことで、単発検出器の効率と高精度を両立する最先端の精度を達成する方法を提案する。
For object detection, the two-stage approach (e.g., Faster R-CNN) has been achieving the highest accuracy, whereas the one-stage approach (e.g., SSD) has the advantage of high efficiency. To inherit the merits of both while overcoming their disadvantages, in this paper, we propose a novel single-shot based detector, called RefineDet, that achieves better accuracy than two-stage methods and maintains comparable efficiency of one-stage methods. RefineDet consists of two inter-connected modules, namely, the anchor refinement module and the object detection module. Specifically, the former aims to (1) filter out negative anchors to reduce search space for the classifier, and (2) coarsely adjust the locations and sizes of anchors to provide better initialization for the subsequent regressor. The latter module takes the refined anchors as the input from the former to further improve the regression and predict multi-class label. Meanwhile, we design a transfer connection block to transfer the features in the anchor refinement module to predict locations, sizes and class labels of objects in the object detection module. The multi-task loss function enables us to train the whole network in an end-to-end way. Extensive experiments on PASCAL VOC 2007, PASCAL VOC 2012, and MS COCO demonstrate that RefineDet achieves state-of-the-art detection accuracy with high efficiency. Code is available at https://github.com/sfzhang15/RefineDet
研究の動機と目的
- 二段階検出器の精度と一段階検出器の速度を両立させるモチベーション。
- アンカーを逐次 refinedし、その後物体を検出する二-moduleのシングルショットフレームワーク(ARMとODM)を導入。
- ネガティブアンカーのフィルタリングと二段階回帰を通じてクラス不均衡と小物体の精度に対処。
- PASCAL VOC 2007/2012 および MS COCO でのエンドツーエンド学習可能性と最先端性能を実証。
提案手法
- ARMとTCBを介して接続されたODMからなるRefineDetを提案。
- ARMはネガティブアンカーをフィルタリングし、錨の位置/サイズを粗く refinementしてレグレッサをより良く初期化。
- ODMはARMから得られた refinement済みアンカーを用いて高精度な分類と位置決定を行う。
- TCBはARMの特徴をODMへ転送し、予測を改善するために大規模コンテキストを組み込む。
- ARMとODMの目的を組み合わせたマルチタスクLossでネットワーク全体をエンドツーエンドで訓練。
- 二段階のカスケード回帰を用いる:最初にARMがアンカーを refinement、続いてODMが最終ボックスとクラスラベルを予測。
実験結果
リサーチクエスチョン
- RQ1二-moduleのシングルショット検出器は、精度で二段階法と同等以上を、かつ一段階の効率を維持できるか?
- RQ2アンカー refinement と転送接続ブロックは、標準的な一段ショット検出器と比較して局在化と分類を改善するか?
- RQ3ネガティブアンカーのフィルタリングと二段階カスケード回帰が検出性能に与える影響は?
- RQ4ARMとODMのエンドツーエンド訓練はVOCとMS COCOで複数のバックボーンにわたり最先端の結果を生み出すか?
主な発見
- RefineDetはバックボーン(VGG-16, ResNet-101)を跨いでVOC2007/2012およびMS COCOで最先端または競合的なmAPを達成。
- 二段階カスケード回帰(ARMによる refinement に続く ODM)は、一段階回帰のみと比べて精度を大幅に向上。
- ネガティブアンカー フィルタリングは訓練/推論ノイズを減らしmAPを改善(フィルタリングによるVOCでの絶対的な0.5%向上をアブレーションで示す)。
- Transfer Connection Blocks(TCB)はARMからODMへの特徴転送とコンテキストの取り込みを有効にし、アブレーションで最大1.1%のmAP改善を達成。
- RefineDet320/512はマルチスケールテストでVOC2012およびVOC2007のトップ結果を達成し、RefineDet+バリアントは320/512入力でMS COCOの最先端APを達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。