QUICK REVIEW

[論文レビュー] Camouflaged Object Segmentation with Distraction Mining

Haiyang Mei, Ge-Peng Ji|arXiv (Cornell University)|Apr 21, 2021

Visual Attention and Saliency Detection参考文献 67被引用数 32

ひとこと要約

PFNetはカモフラージュ対象のセグメンテーションのための生体インスパイアドな位置決定と焦点合わせのフレームワークを導入し、分散マイニングを用いて偽陽性を抑制し偽陰性を回復させ、リアルタイム速度で最先端の結果を達成します。

ABSTRACT

Camouflaged object segmentation (COS) aims to identify objects that are "perfectly" assimilate into their surroundings, which has a wide range of valuable applications. The key challenge of COS is that there exist high intrinsic similarities between the candidate objects and noise background. In this paper, we strive to embrace challenges towards effective and efficient COS. To this end, we develop a bio-inspired framework, termed Positioning and Focus Network (PFNet), which mimics the process of predation in nature. Specifically, our PFNet contains two key modules, i.e., the positioning module (PM) and the focus module (FM). The PM is designed to mimic the detection process in predation for positioning the potential target objects from a global perspective and the FM is then used to perform the identification process in predation for progressively refining the coarse prediction via focusing on the ambiguous regions. Notably, in the FM, we develop a novel distraction mining strategy for distraction discovery and removal, to benefit the performance of estimation. Extensive experiments demonstrate that our PFNet runs in real-time (72 FPS) and significantly outperforms 18 cutting-edge models on three challenging datasets under four standard metrics.

研究の動機と目的

捕食検知と同定の段階を模倣することでCOSを動機づける。
カモフラージュ対象を定位し精錬するための2モジュールネットワーク（Positioning ModuleとFocus Module）を開発する。
偽の分散を発見・除去する分散マイニング戦略を導入する。
複数のベンチマークで優れた精度を達成し、COSをリアルタイムで実現する。
PMとFMコンポーネントの貢献を示すアブレーション実験を示す。

提案手法

ResNet-50をバックボーンとしてRGB画像から多レベルの特徴を抽出する。
Positioning Moduleはチャネルと空間の非局所注意を用いて初期ターゲット位置マップを生成する。
Focus Moduleは前景・背景に着目した特徴と文脈探索ブロックを用いて分散マイニングを実行し、偽陽性/偽陰性を発見する。
分散発見は、広い文脈を捉えるために多段階拡張畳み込みを用いた四枝分岐の文脈探索ブロックを使用する。
分散除去は、減算/加算を介して分散除去後の特徴を結合し、学習可能なスカラーによって精練する。
損失はPM損失（BCE + IoU）とFM損失（加重BCE + 加重IoU）を、段階的なマルチレベル重み付けスキームとともに組み合わせる。
訓練はSGD、ImageNet pretrainedバックボーン、416x416入力、CRFのような後処理を行わず、推論は72 FPS。

実験結果

リサーチクエスチョン

RQ1生体に着想を得た定位と焦点合わせのフレームワークは、最先端手法と比較してカモフラージュ対象のセグメンテーションを改善できるか？
RQ2分散マイニングはCOSにおける偽陽性と偽陰性の扱いにどのように影響するか？
RQ3PMとFMコンポーネントが全体の性能にどの程度寄与するか？
RQ4PFNetは標準的なCOSベンチマークでリアルタイム推論が可能か？
RQ5注意ブロックと分散ストリームのアブレーションは性能にどのような影響を与えるか？

主な発見

Method	CHAMELEON S_alpha	CHAMELEON E_phi_ad	CHAMELEON F_beta_w	CHAMELEON M	CAMO S_alpha	CAMO E_phi_ad	CAMO F_beta_w	CAMO M	COD10K S_alpha	COD10K E_phi_ad	COD10K F_beta_w	COD10K M
PFNet *	0.882	0.942	0.810	0.033	0.782	0.852	0.695	0.085	0.800	0.868	0.660	0.040
SINet *	0.869	0.899	0.740	0.044	0.751	0.834	0.606	0.051	0.771	0.797	0.551	0.051

PFNetは3つのCOSベンチマーク（CHAMELEON、CAMO、COD10K）で4つの指標（S_alpha、E_ad、F_w、M）を用いて最先端の結果を達成した。
PFNetはSINetおよび他のベースラインを大幅に上回る。例としてCHAMELEON: S_alpha 0.882, E_ad 0.942, F_w 0.810, M 0.033; CAMO: S_alpha 0.782, E_ad 0.852, F_w 0.695, M 0.085; COD10K: S_alpha 0.800, E_ad 0.868, F_w 0.660, M 0.040.
推論は72 FPSで実行され、SINetの72対51 FPSより高速。
アブレーション研究は、Positioning ModuleとFocus Moduleの両方（分散マイニングを含む）が性能を大幅に向上させることを示している。
文脈探索ブロックを用いた分散マイニング（偽陽性および偽陰性）は、物体の境界をより明確にし、カモフラージュ構造の扱いを改善する。
定性的結果は、小規模・大規模・複数物体のカモフラージュシナリオでのセグメンテーションの改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。