QUICK REVIEW

[論文レビュー] Frequency Perception Network for Camouflaged Object Detection

Runmin Cong, Mengyao Sun|arXiv (Cornell University)|Aug 17, 2023

Visual Attention and Saliency Detection被引用数 11

ひとこと要約

FPNet は、学習可能な周波数手がかりと RGB 特徴を融合する二段階のフレームワークを提案し、隠蔽物体検出（COD）を改善し、CODベンチマークで最先端の結果を達成します。

ABSTRACT

Camouflaged object detection (COD) aims to accurately detect objects hidden in the surrounding environment. However, the existing COD methods mainly locate camouflaged objects in the RGB domain, their performance has not been fully exploited in many challenging scenarios. Considering that the features of the camouflaged object and the background are more discriminative in the frequency domain, we propose a novel learnable and separable frequency perception mechanism driven by the semantic hierarchy in the frequency domain. Our entire network adopts a two-stage model, including a frequency-guided coarse localization stage and a detail-preserving fine localization stage. With the multi-level features extracted by the backbone, we design a flexible frequency perception module based on octave convolution for coarse positioning. Then, we design the correction fusion module to step-by-step integrate the high-level features through the prior-guided correction and cross-layer feature channel association, and finally combine them with the shallow features to achieve the detailed correction of the camouflaged objects. Compared with the currently existing models, our proposed method achieves competitive performance in three popular benchmark datasets both qualitatively and quantitatively.

研究の動機と目的

RGB を超える周波数領域の識別手がかりを活用して、CODの改善を促進する。
粗い物体局所化を強化する学習可能な周波数知覚機構を開発する。
カモフラージュ物体を正確に境界づけるディテール保持リファインメント・パイプラインを設計する。
前知識に基づく補正を取り入れた二段階のエンドツーエンドネットワークで、RGBと周波数情報を統合する。

提案手法

PVTベースのエンコーダを備えた二段階 FPNet を導入する。
高周波成分（テクスチャ）と低周波成分（輪郭）特徴を学習するために octave convolution を用いた Frequency Perception Module (FPM) を使用する。
粗い局所化のために多段階周波数特徴を融合する Neighbor Connection Decoder (NCD)。
事前情報に基づくクロスレイヤー特徴相互作用とチャネル間相関のための Correction Fusion Module (CFM)。
第一層特徴を用いて境界を細精化する高解像度保持（RFB + SAM）。
受容野ブロックを用いた最終融合で出力マスク S_output を生成する。
損失は三つのマップ（S1, S2, S_output）に対する加重 BCE と IoU を組み合わせる。

実験結果

リサーチクエスチョン

RQ1周波数領域の特徴は、RGB の手がかりを超えてカモフラージュ物体の初期局在化をどのように改善できるか？
RQ2学習可能な周波数知覚機構はデータセットを横断して堅牢な粗定位を提供できるか？
RQ3事前情報に基づく補正とクロスレイヤー融合による逐次的な洗練は、より鋭い COD 境界を生み出すか？
RQ4高解像度の境界の洗練が COD 性能に与える影響はどれほどか？

主な発見

Method	Year	COD10K-Test Sα	COD10K-Test E平均	COD10K-Test Fβ^ω	COD10K-Test M	CAMO-Test Sα	CAMO-Test E平均	CAMO-Test Fβ^ω	CAMO-Test M	CHAMELEON Sα	CHAMELEON E平均	CHAMELEON Fβ^ω	CHAMELEON M
FPNet	2023	0.850	0.913	0.748	0.029	0.852	0.905	0.806	0.056	0.914	0.961	0.856	0.022

FPNet は COD10K、CAMO、CHAMELEON のベンチマークで最先端の性能を達成。
CAMO-Test では、FPNet が最良の加重 F-measure Fβ^ω = 0.806 を達成し、E-measure/MAE も良好（例：MAE = 0.056）。
Frequency Perception Module (FPM) は、明確な高周波・低周波の手掛かりを学習することにより、PVT バックボーンのベースラインより全指標を改善した。
Correction Fusion Module (CFM) と高解像度保持は、境界の精度向上とクロスレイヤー特徴相互作用に寄与。
定性的結果は、複数物体、遮蔽、境界が不定な場面など、困難な状況でFPNet がカモフラージュ物体を正確に検出することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。