Skip to main content
QUICK REVIEW

[論文レビュー] Fast Camouflaged Object Detection via Edge-based Reversible Re-calibration Network

Ge-Peng Ji, Lei Zhu|arXiv (Cornell University)|Nov 5, 2021
Visual Attention and Saliency Detection参考文献 98被引用数 23
ひとこと要約

本稿では、高速かつ高精度なカモフラージュオブジェクト検出(COD)を実現するエッジベースの逆転可能な再キャリブレーションネットワーク、ERRNetを提案する。選択的エッジ集約(SEA)と逆転可能な再キャリブレーションユニット(RRU)を統合することで、生物的視覚認識を模倣し、エッジとグローバルな事前知識を活用して境界検出を強化する。COD10Kで平均E-measure 0.867、推論速度79.3 FPSを達成し、SINetを約6%上回る最先端性能を発揮した。

ABSTRACT

Camouflaged Object Detection (COD) aims to detect objects with similar patterns (e.g., texture, intensity, colour, etc) to their surroundings, and recently has attracted growing research interest. As camouflaged objects often present very ambiguous boundaries, how to determine object locations as well as their weak boundaries is challenging and also the key to this task. Inspired by the biological visual perception process when a human observer discovers camouflaged objects, this paper proposes a novel edge-based reversible re-calibration network called ERRNet. Our model is characterized by two innovative designs, namely Selective Edge Aggregation (SEA) and Reversible Re-calibration Unit (RRU), which aim to model the visual perception behaviour and achieve effective edge prior and cross-comparison between potential camouflaged regions and background. More importantly, RRU incorporates diverse priors with more comprehensive information comparing to existing COD models. Experimental results show that ERRNet outperforms existing cutting-edge baselines on three COD datasets and five medical image segmentation datasets. Especially, compared with the existing top-1 model SINet, ERRNet significantly improves the performance by $\sim$6% (mean E-measure) with notably high speed (79.3 FPS), showing that ERRNet could be a general and robust solution for the COD task.

研究の動機と目的

  • 境界が曖昧で背景と高いためのテクスチャ類似度の高いカモフラージュオブジェクトを検出する課題に対処すること。
  • 生物学的にインspiredなメカニズムを用いて、グローバルおよびエッジの事前知識を統合することで、人間の視覚認識に類似したオブジェクト検出を実現すること。
  • 潜在的なターゲットとその周囲の明確な比較をモデル化することで、検出精度と推論速度を向上させること。
  • 自然なCODにとどまらず、医療画像セグメンテーションタスクにも適用可能な汎用的で強力なフレームワークを開発すること。
  • 既存のCODモデルがエッジの手がかりや文脈的比較を十分に活用できないという限界を克服すること。

提案手法

  • 低レベル特徴におけるエッジ情報の劣化を防ぐために、エッジ特徴学習を強化する選択的エッジ集約(SEA)を導入する。
  • 複数の事前知識(隣接、グローバル、エッジ、意味的)を逆転可能でパラメータ効率の良い方法で特徴マップを再キャリブレーションする、逆転可能な再キャリブレーションユニット(RRU)を設計する。
  • 低レベルおよび高レベルの特徴マップの両方でNEGS事前知識(隣接、グローバル、エッジ、意味的)を統合し、検出をガイドし、境界局在を向上させる。
  • グローバル事前知識の提案をエッジに敏感なクロス比較によりRRUモジュールで精練する二重パスアーキテクチャを採用する。
  • 標準的なセグメンテーション損失関数を用いてエンド・ツー・エンドにネットワークを学習させ、特徴学習と再キャリブレーションの共同最適化を可能にする。
  • ポリープおよび肺感染症データセットで微調整することで、モデルを医療画像セグメンテーションタスクに適応させ、一貫した性能向上を達成する。
Figure 2 : The overall pipeline of the proposed ERRNet that contains three main cooperative components, including Atrous Spatial Pyramid Pooling (ASPP) for initiating global prior, Selective Edge Aggregation (SEA) for generating edge prior, and Reversible Re-calibration Unit (RRU) for modulating and
Figure 2 : The overall pipeline of the proposed ERRNet that contains three main cooperative components, including Atrous Spatial Pyramid Pooling (ASPP) for initiating global prior, Selective Edge Aggregation (SEA) for generating edge prior, and Reversible Re-calibration Unit (RRU) for modulating and

実験結果

リサーチクエスチョン

  • RQ1生物学的にインspiredな視覚認識メカニズムにより、エッジとグローバルな文脈に注目することで、カモフラージュオブジェクト検出が向上するか?
  • RQ2深層ネットワーク内でエッジ事前知識を効果的に集約・保持する方法は何か? これにより弱い境界検出が向上するか?
  • RQ3複数の事前知識を統合する逆転可能再キャリブレーションユニットは、標準的なアテンションや再キャリブレーションモジュールを上回る性能を発揮するか?
  • RQ4提案されたフレームワークは、自然画像のCODから医療画像セグメンテーションまで多様な分野に一般化可能か?
  • RQ5モデルの推論速度と精度は、CODおよび医療画像セグメンテーションベンチマークにおいて、既存の最先端手法をどの程度上回るか?

主な発見

  • ERRNetはCOD10Kデータセットで平均E-measure 0.867を達成し、以前の最先端手法SINetを約6%上回った。
  • 79.3 FPSという高い推論速度を維持しており、実時間での実装に適した性能を示した。
  • 医療画像セグメンテーションタスクでは、ポリープおよび肺感染症セグメンテーションデータセットの両方で、6つの最先端ベースラインをすべて上回った。特に、COVID-19データセットではInf-Netより感度(Sen.)で12%の向上を達成した。
  • アブレーションスタディにより、SEAおよびRRUモジュールの両方が不可欠であることが確認され、特に多事前知識再キャリブレーションによるRRUの大幅な向上が示された。
  • ERRNetは3つのCODデータセットで1位を獲得し、5つの医療画像セグメンテーションベンチマークで一貫して既存のモデルを上回った。
  • 標準的なResNet-50バックボーンでさえも、より強力なRes2Net-50バックボーンを用いたInf-Netを上回り、特に感度およびE-measure指標で顕著な性能向上を示した。
Figure 3 : Visualization of each component in the NEGS priors, i.e. , edge prior in (c), global prior in (d), and neighbour prior in (e) & (f). Specifically, the re-calibration stage treats the intermediate outputs of the network as the prior cues to enhance the reliability and stability of the lear
Figure 3 : Visualization of each component in the NEGS priors, i.e. , edge prior in (c), global prior in (d), and neighbour prior in (e) & (f). Specifically, the re-calibration stage treats the intermediate outputs of the network as the prior cues to enhance the reliability and stability of the lear

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。