[論文レビュー] MDSSD: Multi-scale Deconvolutional Single Shot Detector for Small Objects
MDSSDは、マルチスケールのデコンボリューション融合ブロックを導入し、高レベル特徴をアップサンプルして浅い層と融合させることで小さな物体検出を強化し、TT100K、VOC2007、COCOで最先端の成果を達成します。
For most of the object detectors based on multi-scale feature maps, the shallow layers are rich in fine spatial information and thus mainly responsible for small object detection. The performance of small object detection, however, is still less than satisfactory because of the deficiency of semantic information on shallow feature maps. In this paper, we design a Multi-scale Deconvolutional Single Shot Detector (MDSSD), especially for small object detection. In MDSSD, multiple high-level feature maps at different scales are upsampled simultaneously to increase the spatial resolution. Afterwards, we implement the skip connections with low-level feature maps via Fusion Block. The fusion feature maps, named Fusion Module, are of strong feature representational power of small instances. It is noteworthy that these high-level feature maps utilized in Fusion Block preserve both strong semantic information and some fine details of small instances, rather than the top-most layer where the representation of fine details for small objects are potentially wiped out. The proposed framework achieves 77.6% mAP for small object detection on the challenging dataset TT100K with 512 x 512 input, outperforming other detectors with a large margin. Moreover, it can also achieve state-of-the-art results for general object detection on PASCAL VOC2007 test and MS COCO test-dev2015, especially achieving 2 to 5 points improvement on small object categories.
研究の動機と目的
- 小物体検出の難しさと既存の多尺度検出器の限界を動機づける。
- 空間的細部を保持しつつ意味論的豊かさを活用する多尺度デコンボリューションフレームワークを開発する。
- 小物体検出のために高レベル特徴と低レベル特徴を融合するFusion Blocksを組み込む。
- SSDおよび関連手法を上回る改善を示すために、TT100K、PASCAL VOC2007、MS COCOでMDSSDを評価する。
提案手法
- 異なるスケールの高レベル特徴マップにデコンボリューション層を適用して空間解像度をアップサンプルする。
- アップサンプルされた高レベル特徴と対応する浅い特徴をスキップ接続で融合するFusion Blocksを導入する。
- 最も深いSSDレイヤー(conv11_2)の前で動作し、小物体の細部を回復する3つのFusion Modules(Module 1、Module 2、Module 3)を作成する。
- 新しいFusion Modulesと元のSSDレイヤーの両方で並行して予測を行う。
- 局在化(Smooth L1)と信頼度(Softmax)損失の加重和を用いた損失で訓練する。
実験結果
リサーチクエスチョン
- RQ1SSDライクなアーキテクチャで特徴解像度は小物体検出にどう影響するか?
- RQ2多尺度デコンボリューションアップサンプリングと特徴融合は、大きい物体の性能を犠牲にすることなく小物体検出を改善できるか?
- RQ3Fusion Modulesの追加がデータセット(TT100K、VOC2007、COCO)全体の検出精度に与える影響はどの程度か?
主な発見
- MDSSD512 は TT100K で mAP 77.6% を達成し、SSD512 (68.7%) と RFB Net (74.4%) を上回る。
- MDSSD512 は TT100K で Faster R-CNN系(52.9% および 61.1%)を上回るが、入力サイズは小さい(512×512)。
- MDSSD300 は PASCAL VOC2007 の mAP が 78.6% に達し、DSSD321 と同等で、ResNet-101 バックボーンでは 81.0%(MDSSD512*)に達する。
- COCO では、MDSSD300 と MDSSD512 は小物体(領域 < 32^2)でそれぞれ 10.8% AP および 13.9% AP を達成し、SSD、DSSD、DSOD のベースラインより高い。
- MDSSD は小物体の平均再現率(AR)も高く報告し、小物体検出能力の改善を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。