[논문 리뷰] Frequency Perception Network for Camouflaged Object Detection
FPNet은 학습 가능한 주파수 단서를 RGB 특성과 융합하여 위장 물체 탐지를 개선하는 2단계 프레임워크를 제안하고 COD 벤치마크에서 최첨단 성능을 달성합니다.
Camouflaged object detection (COD) aims to accurately detect objects hidden in the surrounding environment. However, the existing COD methods mainly locate camouflaged objects in the RGB domain, their performance has not been fully exploited in many challenging scenarios. Considering that the features of the camouflaged object and the background are more discriminative in the frequency domain, we propose a novel learnable and separable frequency perception mechanism driven by the semantic hierarchy in the frequency domain. Our entire network adopts a two-stage model, including a frequency-guided coarse localization stage and a detail-preserving fine localization stage. With the multi-level features extracted by the backbone, we design a flexible frequency perception module based on octave convolution for coarse positioning. Then, we design the correction fusion module to step-by-step integrate the high-level features through the prior-guided correction and cross-layer feature channel association, and finally combine them with the shallow features to achieve the detailed correction of the camouflaged objects. Compared with the currently existing models, our proposed method achieves competitive performance in three popular benchmark datasets both qualitatively and quantitatively.
연구 동기 및 목표
- RGB를 넘어선 주파수 영역 구분 신호를 활용하여 COD를 개선하려는 동기 부여.
- 거친 물체 위치화를 향상시키는 학습 가능한 주파수 인지 메커니즘 개발.
- 위장 물체를 정확하게 윤곽화하는 디테일 보존 정제 파이프라인 설계.
- 사전 안내 보정(prior-guided)으로 크로스-레이어 특징 상호작용 및 엔드 투 엔드 네트워크에서 RGB와 주파수 정보를 통합.
제안 방법
- PVT 기반 인코더를 갖춘 2단계 FPNet 도입.
- 주파수 인지 모듈(FPM)은 옥타브 컨볼루션을 사용하여 고주파(질감) 및 저주파(윤곽) 특징을 학습.
- 이웃 연결 디코더(NCD)는 다중 수준의 주파수 특징을 융합하여 거친 위치화를 수행.
- 사전-가이된 교차 계층 특징 상호작용 및 채널 간 상관 관계를 위한 보정 융합 모듈(CFM).
- 첫 번째 레이어 특징을 사용하여 경계선을 다듬기 위한 고해상도 보존(RFB + SAM).
- 출력 마스크 S_output를 생성하기 위한 수용 영역 블록을 활용한 최종 융합.
- 손실은 세 개의 맵(S1, S2, S_output)에 대해 가중 BCE와 IoU를 결합.
실험 결과
연구 질문
- RQ1주파수 영역 특징이 RGB 단서를 넘어 초기 위장 물체의 위치 추정을 어떻게 개선할 수 있는가?
- RQ2학습 가능한 주파수 인지 메커니즘이 데이터셋 전반에 걸쳐 강력한 거친 위치지정을 제공할 수 있는가?
- RQ3사전 가이던 보정 및 크로스-레이어 융합을 통한 점진적 정제가 더 선명한 COD 경계선을 만들 수 있는가?
- RQ4고해상도 경계 보정이 COD 성능에 미치는 영향은 무엇인가?
주요 결과
| 방법 | 연도 | COD10K-Test S_alpha | COD10K-Test E_mean | COD10K-Test F_beta^omega | COD10K-Test M | CAMO-Test S_alpha | CAMO-Test E_mean | CAMO-Test F_beta^omega | CAMO-Test M | CHAMELEON S_alpha | CHAMELEON E_mean | CHAMELEON F_beta^omega | CHAMELEON M |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| FPNet | 2023 | 0.850 | 0.913 | 0.748 | 0.029 | 0.852 | 0.905 | 0.806 | 0.056 | 0.914 | 0.961 | 0.856 | 0.022 |
- FPNet은 COD10K, CAMO, CHAMELEON 벤치마크에서 최첨단 성능을 달성합니다.
- CAMO-Test에서 FPNet은 가중 F-measure Fβ^ω = 0.806 및 강한 E-measure/MAE 성능을 달성합니다(예: MAE = 0.056).
- 주파수 인지 모듈(FPM)은 고주파 및 저주파 단서를 학습하여 PVT 백본 기준선 대비 모든 지표를 향상시킵니다.
- 보정 융합 모듈(CFM)과 고해상도 보존은 경계 정확도 및 크로스-레이어 특징 상호작용 향상에 기여합니다.
- 정성적 결과는 FPNet이 도전적인 시나리오에서 위장 물체를 정확히 탐지함을 보여줍니다(다수 물체, 가림, 경계 모호).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.