[論文レビュー] DSSD : Deconvolutional Single Shot Detector
DSSDはResidual-101を用いたSSDにデコンボリューション型エンコーダ-デコーダ文脈を追加し、VOC2007で81.5% mAP、COCOで33.2% mAPを達成し、従来の単一ネットワーク検出器を上回る。
The main contribution of this paper is an approach for introducing additional context into state-of-the-art general object detection. To achieve this we first combine a state-of-the-art classifier (Residual-101[14]) with a fast detection framework (SSD[18]). We then augment SSD+Residual-101 with deconvolution layers to introduce additional large-scale context in object detection and improve accuracy, especially for small objects, calling our resulting system DSSD for deconvolutional single shot detector. While these two contributions are easily described at a high-level, a naive implementation does not succeed. Instead we show that carefully adding additional stages of learned transformations, specifically a module for feed-forward connections in deconvolution and a new output module, enables this new approach and forms a potential way forward for further detection research. Results are shown on both PASCAL VOC and COCO detection. Our DSSD with $513 \times 513$ input achieves 81.5% mAP on VOC2007 test, 80.0% mAP on VOC2012 test, and 33.2% mAP on COCO, outperforming a state-of-the-art method R-FCN[3] on each dataset.
研究の動機と目的
- 一般的な物体検出を、大規模な文脈情報を注入することで動機付ける。
- SSDにおけるVGGをより深いバックボーン(Residual-101)に置換して、特徴の質を向上させる。
- セマンティック文脈を後段の予測層へ伝えるデコンボリューションベースのhourglassモジュールを開発する。
- 予測モジュールとデコンボリューションモジュールを導入し、学習を安定化させ小 objects検出を改善する。
提案手法
- SSDの基盤ネットワークとしてVGGをResidual-101に置換し、特徴品質を向上させる。
- 予測層を強化し学習を安定化させる残差ブロックを用いた予測モジュールを追加する。
- SSDの後ろにデコンボリューション層を接続して非対称のencoder-decoder(hourglass)ネットワークを形成する。
- デコンボリューションモジュールをバッチ正規化と学習可能なアップサンプリングとともに導入し、要素ごとの積で文脈融合を行う。
- スキップ接続を用いて高レベルの文脈をより細かい解像度の特徴マップへ伝え、DSSDを構築する。
- 2段階の訓練を行い、まずSSDを凍結してデコンボリューションサイドを訓練し、次に全ネットワークを微調整する。デフォルトボックスにはSSD風のデータ拡張とアスペクト比の調整を採用する。
実験結果
リサーチクエスチョン
- RQ1SSDにデコンボリューションベースのencoder-decoder(hourglass)構造を追加することで、特に小 objectsの精度を改善できるか?
- RQ2VGGをResidual-101に置換し専用の予測モジュールを導入することで、VOC/COCO検出性能を速度を犠牲にせず向上させられるか?
- RQ3デコンボリューションモジュールにおける異なる特徴融合戦略(和と積)の検出精度への影響はどうなるか?
- RQ42段階訓練(バックボーンを凍結してデュアルステージ訓練)による収束と最終性能への影響はどうなるか?
主な発見
- Residual-101とデコンボリューション層を備えたDSSDは、SSDより高い精度を達成し、VOCおよびCOCOで競争力のある最先端手法と並ぶ。
- 予測モジュールとデコンボリューションモジュールは、特に小さな物体や文脈依存クラスのmAPを大幅に向上させる。
- デコンボリューションモジュールにおける要素ごとの積融合が、検出精度を testした融合手法の中で最も高い精度をもたらす。
- VOC2007では、DSSD 513 inputが81.5% mAPを達成し、R-FCNやSSD系といった従来の単一ネットワーク検出器を上回る。
- VOC2012ではDSSDが80.0% mAP、COCOではDSSD 513が33.2% mAPを達成し、クロスデータセットでの優れた性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。