Skip to main content
QUICK REVIEW

[論文レビュー] Edge-guided Representation Learning for Underwater Object Detection

Linhui Dai, Hong Liu|arXiv (Cornell University)|Jun 1, 2023
Underwater Acoustics Research被引用数 4
ひとこと要約

本稿では、エッジに注意を向けるアテンション、マルチスケール特徴の統合、広い非対称受容 field を備えた、水中オブジェクト検出のための新規なエッジガイドド表現学習フレームワーク ERL-Net を提案する。この手法は、エッジに注意を向けたアテンション、マルチスケール特徴の統合、広い非対称受容 field を通じて特徴の識別能を向上させ、低コントラスト、小規模オブジェクト、 camouflage された状況下での検出性能を向上させる。本手法は、3つの挑戦的な水中データセットで最先端性能を達成した。

ABSTRACT

Underwater object detection (UOD) is crucial for marine economic development, environmental protection, and the planet's sustainable development. The main challenges of this task arise from low-contrast, small objects, and mimicry of aquatic organisms. The key to addressing these challenges is to focus the model on obtaining more discriminative information. We observe that the edges of underwater objects are highly unique and can be distinguished from low-contrast or mimicry environments based on their edges. Motivated by this observation, we propose an Edge-guided Representation Learning Network, termed ERL-Net, that aims to achieve discriminative representation learning and aggregation under the guidance of edge cues. Firstly, we introduce an edge-guided attention module to model the explicit boundary information, which generates more discriminative features. Secondly, a feature aggregation module is proposed to aggregate the multi-scale discriminative features by regrouping them into three levels, effectively aggregating global and local information for locating and recognizing underwater objects. Finally, we propose a wide and asymmetric receptive field block to enable features to have a wider receptive field, allowing the model to focus on more small object information. Comprehensive experiments on three challenging underwater datasets show that our method achieves superior performance on the UOD task.

研究の動機と目的

  • 低コントラスト水中画像、小規模で密集したオブジェクト、水中生物による camouflage の課題に対処すること。
  • 背景のごみや色の模倣によって検出が阻害される複雑な水中環境における特徴の識別能を向上させること。
  • エッジ情報を利用して表現学習をガイドし、局所化精度を向上させる強力な誘導的バイアスを活用すること。
  • エッジガイドド技術とマルチスケール特徴学習、文脈モデリングを統合した包括的なフレームワークを設計し、頑健な検出を実現すること。

提案手法

  • エッジマップを用いて境界情報を明示的にモデル化するエッジガイドドアテンション(EGA)モジュールを提案し、特徴表現を精緻化する。
  • マルチスケール特徴を低レベル、ミドルレベル、ハイレベルの表現に再グループ化することで、グローバルおよびローカルの文脈を統合する特徴統合(FA)モジュールを導入する。
  • 受容 field を非対称的に拡大するワイドかつ非対称な受容 field ブロック(WA-RFB)を設計し、小規模オブジェクトに対する感度を向上させる。
  • EGA、FA、WA-RFB モジュールを統合した一貫性のあるネットワークアーキテクチャを構築し、1段階検出器(例:RetinaNet)および2段階検出器(例:Faster R-CNN、Cascade R-CNN)と互換性を持たせる。
  • トレーニング中にエッジマップを補助的监督信号として活用し、追加のアノテーションを必要とせずにアテンションと特徴学習をガイドする。
  • 検出ヘッドの予測とエッジに注意を向けた特徴精錬を統合するマルチタスク学習戦略を採用し、エンドツーエンド最適化を実現する。

実験結果

リサーチクエスチョン

  • RQ1明示的なエッジ監視は、低コントラスト水中画像における特徴の識別能を向上させることができるか?
  • RQ2エッジガイドドアテンションは、小規模または camouflage された水中オブジェクトの局所化および認識をどのように向上させるか?
  • RQ3エッジの手がかりによってガイドされるマルチスケール特徴統合は、多様な水中シーンにおいて検出性能をどの程度向上させるか?
  • RQ4標準的な畳み込み受容 field と比較して、ワイドかつ非対称な受容 field は、小規模オブジェクト検出において文脈情報をより効果的に捉えられるか?

主な発見

  • UTDAC2020 データセットにおいて、ERL-Net は COCO スタイルの AP@[0.5:0.05:0.95] メトリックで mAP 0.484 を達成し、SABL や NAS-FCOS を含む最先端手法を上回った。
  • 小規模オブジェクトにおいて、ERL-Net は IoU=0.75 時の mAP を 0.128(AP75)に達成し、SABL(0.085)および NAS-FCOS(0.091)と比較して 2.5–3.7% の向上を示し、極小かつ検出が困難なターゲットにおいても優れた性能を示した。
  • AP50 は 0.836 に向上し、SABL(0.815)および NAS-FCOS(0.423)を大きく上回り、低い IoU スコアでも検出の再現率が優れていることを示した。
  • 定性的な結果から、ERL-Net は正確なエッジ特徴を活用することで、潜水装置をエキヌスと誤認するような誤検出(false positives)を低減していることが確認された。
  • アブレーションスタディの結果、エッジガイドドアテンション(EGA)とチャネルワイズアテンション(CA)を組み合わせた場合、CA 単体(0.477)よりも高い mAP(0.484)を達成しており、エッジ監視の追加的価値を裏付けた。
  • アテンションマップの可視化から、ERL-Net が物体の境界全体に注目していることが確認され、中央部にのみ注目するのではなく、形状に配慮した検出を実現していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。