Skip to main content
QUICK REVIEW

[論文レビュー] Precise Single-stage Detector

Aisha Chandio, Gong Gui|arXiv (Cornell University)|Oct 9, 2022
Advanced Image and Video Retrieval Techniques被引用数 27
ひとこと要約

本論文は、特徴を豊かにする追加層・受容野拡張モジュールと二方向FPNを備え、IOUガイド付き損失で精度を向上させつつリアルタイム速度を維持する改良版SSDであるPSSDを提案する。

ABSTRACT

There are still two problems in SDD causing some inaccurate results: (1) In the process of feature extraction, with the layer-by-layer acquisition of semantic information, local information is gradually lost, resulting into less representative feature maps; (2) During the Non-Maximum Suppression (NMS) algorithm due to inconsistency in classification and regression tasks, the classification confidence and predicted detection position cannot accurately indicate the position of the prediction boxes. Methods: In order to address these aforementioned issues, we propose a new architecture, a modified version of Single Shot Multibox Detector (SSD), named Precise Single Stage Detector (PSSD). Firstly, we improve the features by adding extra layers to SSD. Secondly, we construct a simple and effective feature enhancement module to expand the receptive field step by step for each layer and enhance its local and semantic information. Finally, we design a more efficient loss function to predict the IOU between the prediction boxes and ground truth boxes, and the threshold IOU guides classification training and attenuates the scores, which are used by the NMS algorithm. Main Results: Benefiting from the above optimization, the proposed model PSSD achieves exciting performance in real-time. Specifically, with the hardware of Titan Xp and the input size of 320 pix, PSSD achieves 33.8 mAP at 45 FPS speed on MS COCO benchmark and 81.28 mAP at 66 FPS speed on Pascal VOC 2007 outperforming state-of-the-art object detection models. Besides, the proposed model performs significantly well with larger input size. Under 512 pix, PSSD can obtain 37.2 mAP with 27 FPS on MS COCO and 82.82 mAP with 40 FPS on Pascal VOC 2007. The experiment results prove that the proposed model has a better trade-off between speed and accuracy.

研究の動機と目的

  • SSD関連の単一段検出器が局所的な細部を保持し、分類とボックス回帰の整合性を取ることの制限に対処する。
  • 重いバックボーンの変更を伴わずに多スケール特徴表現を豊かにする。
  • IOUガイド付きの損失と予測メカニズムを導入して NMS の選別と局在精度を向上させる。

提案手法

  • 予測子が使用する基本特徴マップを拡張するためにSSDへ追加層を追加する。
  • 受容野拡張モジュール(RFM)と2方向FPNからなる特徴強化モジュール(FEM)を導入し、スケール間で局所情報と意味情報を豊かにする。
  • パラメータオーバーヘッドを大きく増やすことなく、均一な受容野分布を改善するためバックボーンを再設計する。
  • IOU分岐を含むIOUガイド付き予測構造を提案し、R_IOU損失とCEJI損失を含めて、分類と局在の整合を改善し、NMS時の低品質なボックスを抑制する。

実験結果

リサーチクエスチョン

  • RQ1SSDスタイルの単一段検出器が、より深いバックボーンに頼らずに高速-精度のトレードオフをどのように達成できるか。
  • RQ2IOUガイド付きアプローチは、単一段検出器における分類スコアと局在精度の整合性を向上させることができるか。
  • RQ3二方向の特徴ピラミッドと受容野拡張は、単一段フレームワークにおける小物体と大物体検出を改善するか。

主な発見

MethodBackboneInput sizeFPSAPAP50AP75AP_smallAP_mediumAP_large
PSSD320VGG16320×3204533.852.235.814.838.550.3
PSSD512VGG16512×5122737.255.940.318.741.651.4
  • PSSD320 は VGG16 バックボーンと 320×320 入力で MS COCO 2017 test-dev 上 45 FPS、33.8 mAP を達成。
  • PSSD512 は VGG16 バックボーンと 512×512 入力で MS COCO 2017 test-dev 上 27 FPS、37.2 mAP を達成。
  • Pascal VOC 2007 で、PSSD320 は 66 FPS、81.28 mAP を、PSSD512 は 40 FPS、82.82 mAP を達成。
  • アブレーションにより、Two-way FPN と RFM、IOUガイド付き予測を組み合わせると、AP が SSD のベースライン 25.8 から 33.8(PSSD320)へ向上。
  • IOUガイド付き予測と新しい損失項(R_IOU lossとCEJI loss)は、ベースラインより顕著な改善をもたらし、高スコアだが低IOUの予測を減少させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。