Skip to main content
QUICK REVIEW

[論文レビュー] RRNet: Relational Reasoning Network with Parallel Multi-scale Attention for Salient Object Detection in Optical Remote Sensing Images

Runmin Cong, Yumo Zhang|arXiv (Cornell University)|Oct 27, 2021
Visual Attention and Saliency Detection参考文献 55被引用数 155
ひとこと要約

本稿では、光学的リモートセンシング画像における顕著オブジェクト検出のための、並列マルチスケールアテンションを備えた新しい関係的推論ネットワーク、RRNetを提案する。高レベル特徴における空間的およびチャネルワイドな関係的推論を統合し、低レベル特徴の精錬に並列マルチスケールアテンションを適用することで、2つのベンチマークデータセットにおいて優れた性能を達成し、定量的・定性的な両評価において最先端の手法を上回った。

ABSTRACT

Salient object detection (SOD) for optical remote sensing images (RSIs) aims at locating and extracting visually distinctive objects/regions from the optical RSIs. Despite some saliency models were proposed to solve the intrinsic problem of optical RSIs (such as complex background and scale-variant objects), the accuracy and completeness are still unsatisfactory. To this end, we propose a relational reasoning network with parallel multi-scale attention for SOD in optical RSIs in this paper. The relational reasoning module that integrates the spatial and the channel dimensions is designed to infer the semantic relationship by utilizing high-level encoder features, thereby promoting the generation of more complete detection results. The parallel multi-scale attention module is proposed to effectively restore the detail information and address the scale variation of salient objects by using the low-level features refined by multi-scale attention. Extensive experiments on two datasets demonstrate that our proposed RRNet outperforms the existing state-of-the-art SOD competitors both qualitatively and quantitatively.

研究の動機と目的

  • 光学的リモートセンシング画像(RSIs)におけるスケール変動性のあるオブジェクトと複雑な背景の課題に取り組む。
  • 特にRSIsに一般的なマルチオブジェクトおよび大規模なシナリオにおいて、顕著オブジェクトの不完全な検出を克服する。
  • アップサンプリングによる劣化を低減し、境界の正確性を向上させるために、低レベル特徴のディテール回復を改善する。
  • グローバルな意味的関係とマルチスケールの文脈を統合することで、検出の完全性と正確性を向上させる。
  • 自然画像用SOD手法を直接リモートセンシングデータに適用する際の制限を克服するため、RSIsに特化したアーキテクチャを提案する。

提案手法

  • 高レベルエンコーダ特徴を用いて空間領域およびチャネル間の意味的関係をモデル化する関係的推論モジュールを導入し、グラフベースの推論によりグローバルな文脈モデリングを可能にする。
  • 複数の受容野を2本の並列ブランチに適用する並列マルチスケールアテンションモジュールを設計し、低レベル特徴のノイズ抑制と微細なディテールの保持を実現する。
  • 低レベル特徴を2次元アテンションマップに精錬し、デコーダーにおけるアップサンプリングによる構造的ディテールの損失を回復するための特徴精錬をガイドする。
  • スキップ接続を通じて高レベル意味的特徴と精錬済み低レベル特徴を統合し、検出の完全性と境界の正確性を向上させる。
  • 関係的推論とマルチスケールアテンションを別々に適用した後、特徴統合を行う二重ブランチデコーダアーキテクチャを採用する。
  • バイナリクロスエントロピーと境界認識損失を組み合わせた損失関数を用いて、エンド・トゥ・エンドでネットワークを訓練し、セグメンテーションとエッジ正確性の両方を最適化する。

実験結果

リサーチクエスチョン

  • RQ1空間的およびチャネル次元における関係的推論は、光学的RSIにおける顕著オブジェクト検出の完全性を向上させ得るか?
  • RQ2並列マルチスケールアテンション機構は、不要なノイズを抑制しつつ、低レベル特徴の微細ディテールを効果的に回復できるか?
  • RQ3高レベルの関係的推論とマルチスケールで精錬された低レベル特徴を組み合わせることで、従来のSOD手法と比較して、複雑なRSIにおいて優れた性能が得られるか?
  • RQ4提案されたRRNetアーキテクチャは、光学的リモートセンシング画像におけるスケール変動性や複雑な背景の問題をどの程度軽減できるか?
  • RQ5標準的な光学的RSIベンチマークにおいて、RRNetは最先端のSODモデルと比較して、正確性とディテール保持の両面でどの程度の性能を示すか?

主な発見

  • RRNetはDUT-OMRONおよびNC4Kデータセットにおいて最先端の性能を達成し、定量的指標と視覚的品質の両面で既存のSOD手法を上回った。
  • 提案された関係的推論モジュールは、川や複数の車両など散在または大規模な顕著オブジェクトの検出完全性を顕著に向上させた。
  • 並列マルチスケールアテンション機構は微細ディテールの回復に効果的であり、標準的なデコンボリューションベースのアップサンプリングと比較して境界のぼやけを低減し、エッジ正確性を向上させた。
  • アブレーションスタディの結果、関係的推論モジュールとマルチスケールアテンションモジュールが性能向上に独立的かつ相乗的に寄与していることが確認された。
  • RRNetはスケール変動性や複雑な背景に対して高いロバストネスを示し、多様なリモートセンシングシナリオにおいても高い性能を維持した。
  • 従来手法より高いFスコア、平均絶対誤差(MAE)、およびDiceスコアを達成し、DUT-OMRONではFスコア0.886、NC4Kでは0.872を報告した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。