Skip to main content
QUICK REVIEW

[論文レビュー] HS-FPN: High Frequency and Spatial Perception FPN for Tiny Object Detection

Zican Shi, Jing Hu|arXiv (Cornell University)|Dec 13, 2024
Brain Tumor Detection and Classification被引用数 6
ひとこと要約

本論文は HS-FPN を提案し、Feature Pyramid Networks に High Frequency Perception モジュール (HFP) と Spatial Dependency Perception モジュール (SDP) を追加して極小物体検出を向上させ、AI-TOD および DOTA-mini10 データセットで顕著な AP 増益を達成します。

ABSTRACT

The introduction of Feature Pyramid Network (FPN) has significantly improved object detection performance. However, substantial challenges remain in detecting tiny objects, as their features occupy only a very small proportion of the feature maps. Although FPN integrates multi-scale features, it does not directly enhance or enrich the features of tiny objects. Furthermore, FPN lacks spatial perception ability. To address these issues, we propose a novel High Frequency and Spatial Perception Feature Pyramid Network (HS-FPN) with two innovative modules. First, we designed a high frequency perception module (HFP) that generates high frequency responses through high pass filters. These high frequency responses are used as mask weights from both spatial and channel perspectives to enrich and highlight the features of tiny objects in the original feature maps. Second, we developed a spatial dependency perception module (SDP) to capture the spatial dependencies that FPN lacks. Our experiments demonstrate that detectors based on HS-FPN exhibit competitive advantages over state-of-the-art models on the AI-TOD dataset for tiny object detection.

研究の動機と目的

  • 標準 FPN が極小物体検出で抱える3つの主要な制限を同定する。
  • 限られた特徴内容と空間知覚の不足に対処するため、HFP と SDP を備えた HS-FPN を提案する。
  • TOD データセット上で FPN を HS-FPN に置換した場合の複数の検出器とバックボーンにおける適合性と性能向上を示す。

提案手法

  • FPN と同様の4つの横方向接続を持つ HS-FPN を設計するが、各横方向には HFP モジュールを含む。
  • HFP は予め定められたハイパスフィルタを介して高周波応答を生成し、それらをチャネルおよび空間ブランチで用いて特徴を再ウェイトする。
  • Channel Path(HFP 内部)は高周波応答を用いて GAP と GMP によりチャネルアテンションを計算し、続いてグループ化された 1x1 畳み込みを適用する。
  • Spatial Path(HFP 内部)は高周波応答を空間マスクとして用い、1x1 畳み込みを介して空間アテンションを計算する。
  • Pixel レベルの空間依存性を隣接する C_i とアップサンプリングされた P_{i+1} の間で捉える Spatial Dependency Perception (SDP) モジュールを導入し、特徴ブロック上でのクロスアテンションを用いる。
  • 隣接するピラミッドレベル間に SDP を組み込み、空間的に依存した情報で極小物体の特徴を豊かにする。
  • AI-TOD および DOTA-mini10 データセット上で Faster R-CNN、Cascade R-CNN、DetectoRS のバックボーンにおける HS-FPN を評価する。

実験結果

リサーチクエスチョン

  • RQ1複数の検出器に対して、HS-FPN は標準 FPN より極小物体検出性能を改善するか?
  • RQ2TOD ベンチマークにおいて、HFP と SDP は個別および組み合わせで AP 指標にどのような影響を与えるか?
  • RQ3FPN を HS-FPN に置換することによる計算コストの影響はどの程度か?
  • RQ4高周波フィルタパラメータ alpha および異なるバックボーンに対して、HS-FPN の感度はどれくらいか?

主な発見

モデルAPAP50APtAPsAPm
Baseline (FPN) - RetinaNet*38.268.113.731.844.9
Faster R-CNN + HS-FPN48.475.721.740.355.9
Cascade R-CNN + HS-FPN50.976.622.241.859.0
  • FPN を HS-FPN に置換すると AI-TOD の検出器全体で顕著な AP 増加をもたらす(例: Faster R-CNN + HS-FPN: AP 48.4 vs 46.9 with FPN; Cascade R-CNN + HS-FPN: AP 50.9 vs 49.4)。
  • HFP と SDP の両方を組み合わせた HS-FPN が最良の性能を提供し、いずれかのモジュールを単独で使用した場合よりも高い AP を達成します(例: Cascade R-CNN の場合: AP 50.9/76.6/22.2/41.8/59.0 vs ベースライン 49.4/74.2/18.1/40.0/58.1)。
  • アブレーションでは、HFP のみが FPN より約2.2ポイントの AP 向上をもたらし、SDP は約1.1ポイントを追加することが示される;組み合わせるとより大きな利得となり、FPN より最大3.4ポイントの AP 向上。
  • DOTA-mini10 では、HS-FPN が AP を 20.2(FPN ベースライン)から 23.6 へ改善し、tiny-object 指標で顕著な向上を示す(AP_t 25.2, AP_s 27.0)。
  • HS-FPN は高性能バックボーンにも適合性を示し、AP を改善(例: Faster R-CNN + HS-FPN with ResNet-101)。
  • 計算コストの増加は性能向上と比較して控えめである(Table 5 は FLOPs/Params の増加を示す)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。