[논문 리뷰] M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient Object Detection
다단 스테이지 디코더에서 Multilevel Interaction Block과 Mixed Attention Block을 갖춘 M3 Net을 도입하여 두드러진 객체 감지를 향상시키고 여섯 개 데이터셋에서 최신(SOTA) 성능을 달성한다.
Most existing salient object detection methods mostly use U-Net or feature pyramid structure, which simply aggregates feature maps of different scales, ignoring the uniqueness and interdependence of them and their respective contributions to the final prediction. To overcome these, we propose the M$^3$Net, i.e., the Multilevel, Mixed and Multistage attention network for Salient Object Detection (SOD). Firstly, we propose Multiscale Interaction Block which innovatively introduces the cross-attention approach to achieve the interaction between multilevel features, allowing high-level features to guide low-level feature learning and thus enhancing salient regions. Secondly, considering the fact that previous Transformer based SOD methods locate salient regions only using global self-attention while inevitably overlooking the details of complex objects, we propose the Mixed Attention Block. This block combines global self-attention and window self-attention, aiming at modeling context at both global and local levels to further improve the accuracy of the prediction map. Finally, we proposed a multilevel supervision strategy to optimize the aggregated feature stage-by-stage. Experiments on six challenging datasets demonstrate that the proposed M$^3$Net surpasses recent CNN and Transformer-based SOD arts in terms of four metrics. Codes are available at https://github.com/I2-Multimedia-Lab/M3Net.
연구 동기 및 목표
- 다중 수준 특징이 눈에 띄는 예측에 어떻게 기여하는지 단순한 집계 너머로 재고한다.
- 상위 수준 특징이 하위 수준 학습을 이끌도록 교차 수준 상호작용을 가능하게 하는 메커니즘을 제안한다.
- Transformer 기반 SOD에서 로컬 디테일 손실을 해결하기 위해 전역 어텐션과 윈도우 기반 어텐션을 결합한다.
- 다중 수준 감독으로 점진적으로 주목도 맵을 정제하는 다단계 디코더를 개발한다.
제안 방법
- 저수준 피처와 고수준 피처 간의 교차 주의를 가능하게 하는 Multilevel Interaction Block (MIB)을 도입하여 고수준 단서가 저수준 정제를 이끌게 한다.
- 글로벌 자기 주의와 윈도우 기반 자기 주의를 융합하여 글로벌 및 로컬 맥락 모델링을 수행하는 Mixed Attention Block (MAB)을 도입한다.
- 합성곱 연산 없이 시퀀스 방식으로 특징을 순차적으로 융합하는 다단계 디코더를 채택하고, fold-overlap이 적용된 토큰 기반 업샘플링(RT2T)을 사용한다.
- 중간 예측을 최적화하기 위해 각 디코더 단계에서 다중 수준 감독을 적용한다.
- Swin Transformer 기반 인코더(백본은 교체 가능)와 교차 축 척도 주의가 있는 U자형 다중스케일 디코더를 학습한다.
실험 결과
연구 질문
- RQ1다중 수준 특징이 눈에 띄는 예측에 인터랙티브하게 어떻게 기여할 수 있는가?
- RQ2 globally and local attention의 조합이 SOD에서 세부 객체 디테일을 보존하는가?
- RQ3다단계로 구성된, 점진적으로 감독되는 디코더가 기존 디코더에 비해 주목도 맵의 품질을 향상시키는가?
주요 결과
- M3 Net은 최근 CNN 및 Transformer 기반 SOD 방법들을 여섯 개의 도전적인 데이터세트에서 네 가지 지표에 걸쳐 능가한다.
- Multilevel Interaction Block은 고수준 피처가 저수준 피처를 이끌도록 허용함으로써 눈에 띄는 영역을 효과적으로 강화한다.
- Mixed Attention Block은 글로벌 컨텍스트와 로컬 디테일을 모델링하여 예측 정확도와 디테일 보존을 향상시킨다.
- 다단계 디코더와 다중 수준 감독은 저수준 피처의 비주목 정보를 완화하면서 정확한 주목도 맵을 산출한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.