Skip to main content
QUICK REVIEW

[論文レビュー] Large Selective Kernel Network for Remote Sensing Object Detection

Yuxuan Li, Qibin Hou|arXiv (Cornell University)|Mar 16, 2023
Remote-Sensing Image Classification被引用数 46
ひとこと要約

本論文は LSKNet を提案し、分解された depthwise 畳み込みの連なりと空間カーネル選択機構を通じて動的に大きな受容野を拡張・選択し、HRSC2016、DOTA-v1.0、FAIR1M-v1.0 で最先端の結果を達成する。

ABSTRACT

Recent research on remote sensing object detection has largely focused on improving the representation of oriented bounding boxes but has overlooked the unique prior knowledge presented in remote sensing scenarios. Such prior knowledge can be useful because tiny remote sensing objects may be mistakenly detected without referencing a sufficiently long-range context, and the long-range context required by different types of objects can vary. In this paper, we take these priors into account and propose the Large Selective Kernel Network (LSKNet). LSKNet can dynamically adjust its large spatial receptive field to better model the ranging context of various objects in remote sensing scenarios. To the best of our knowledge, this is the first time that large and selective kernel mechanisms have been explored in the field of remote sensing object detection. Without bells and whistles, LSKNet sets new state-of-the-art scores on standard benchmarks, i.e., HRSC2016 (98.46\% mAP), DOTA-v1.0 (81.85\% mAP) and FAIR1M-v1.0 (47.87\% mAP). Based on a similar technique, we rank 2nd place in 2022 the Greater Bay Area International Algorithm Competition. Code is available at https://github.com/zcablii/Large-Selective-Kernel-Network.

研究の動機と目的

  • 物体を正確に検出するには異なる文脈情報が必要であるというリモートセンシングにおける事前知識を活用する。
  • 大きく選択的なカーネルを用いて受容野を動的に拡張できるバックボーン機構を開発する。
  • 空撮画像における小さな物体や文脈依存の物体の検出を改善するために、多尺度の文脈特徴を効率的に融合する。
  • 軽量でスケーラブルなバックボーンを用いて標準的なリモートセンシングベンチマークで最先端の性能を示す。

提案手法

  • 大きな畳み込みカーネルを、受容野を拡張するために、段階的に大きくなるカーネルサイズとデ dilations を用いた depthwise 畳み込みの連なりに分解する。
  • 複数スケールの特徴を処理し、各分解カーネルに対して空間アテンションベースの選択マスクを適用する large kernel selection (LK) モジュールを構築する。
  • 異なる受容野からの出力を連結・プーリングし、空間アテンションマップを生成して大きなカーネル特徴を重み付け・融合する。
  • 入力特徴と学習されたアテンション特徴の要素-wise 積として最終的な LSK 特徴を計算する(Y = X · S)。
  • Oriented RCNN などの検出器のバックボーン内で、残差ブロック(LK Selection block + FFN)に LSK モジュールを組み込む。
  • 異なるチャネル次元とブロック数を持つバリアント(LSKNet-T、LSKNet-S)を提供し、精度と効率のバランスを取る。

実験結果

リサーチクエスチョン

  • RQ1大きなカーネルを選択的に融合したバックボーンは、異なる物体スケールと文脈を持つデータセットにわたってリモートセンシング物体検出を改善しますか?
  • RQ2航空画像で速度と精度のトレードオフを最大化するために、どのように大きな受容野を分解・結合すべきか?
  • RQ3空間(対してチャネル)カーネル選択は、リモートセンシングデータに固有の空間的文脈の変動をよりよく捉えますか?
  • RQ4標準ベンチマークで、LSKNet をさまざまな検出フレームワーク(2段階および1段階)と統合した場合の性能はどうなりますか?

主な発見

  • LSKNet は HRSC2016 (98.46%)、DOTA-v1.0 (要約に記載の 81.85%、結果表には 81.64%)、および FAIR1M-v1.0 (47.87%) で最先端の mAP を達成する。
  • LSKNet-S は 1024×1024 画像で単一の RTX3090 を用いて 18.1 FPS を達成しつつ高い精度を発揮する。
  • 大きなカーネルの二重分解は DOTA-v1.0 で良好な速度–精度のトレードオフを提供する(例:構成間で 80.91–81.31 mAP)。
  • 空間選択はリモートセンシングのタスクでチャネル注意より優れており、モデルは浅い層でより大きなカーネルを、深い層でより小さなカーネルを使用する傾向がある。
  • LSKNet-T/S バックボーンは、ResNet-18 をベースラインとした場合と比較して、パラメータ数と FLOP 数は競争力があるまま、複数の検出フレームワーク(2段階および1段階)を改善する。
  • 視覚的分析は、異なる物体カテゴリが異なる文脈範囲を必要とすることを裏付けており、LSKNet を動機づける事前知識と一致している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。