Skip to main content
QUICK REVIEW

[논문 리뷰] Siamese Network for RGB-D Salient Object Detection and Beyond

Keren Fu, Deng-Ping Fan|arXiv (Cornell University)|2020. 08. 26.
Visual Attention and Saliency Detection참고 문헌 154인용 수 25
한 줄 요약

이 논문은 공유 백본을 사용해 RGB 및 깊이 모odalities의 특징을 동시에 추출함으로써 양방향 특징 전이를 가능하게 하는 Siamese 네트워크 기반의 RGB-D 주목적 객체 검출 프레임워크인 JL-DCF를 제안한다. 이 방법은 7개의 벤치마크에서 평균 F-측정치를 약 2.0% 향상시키며 최신 기술 수준을 초월하며, RGB-T 및 비디오 SOD 작업으로의 일반화 능력도 뛰어나다.

ABSTRACT

Existing RGB-D salient object detection (SOD) models usually treat RGB and depth as independent information and design separate networks for feature extraction from each. Such schemes can easily be constrained by a limited amount of training data or over-reliance on an elaborately designed training process. Inspired by the observation that RGB and depth modalities actually present certain commonality in distinguishing salient objects, a novel joint learning and densely cooperative fusion (JL-DCF) architecture is designed to learn from both RGB and depth inputs through a shared network backbone, known as the Siamese architecture. In this paper, we propose two effective components: joint learning (JL), and densely cooperative fusion (DCF). The JL module provides robust saliency feature learning by exploiting cross-modal commonality via a Siamese network, while the DCF module is introduced for complementary feature discovery. Comprehensive experiments using five popular metrics show that the designed framework yields a robust RGB-D saliency detector with good generalization. As a result, JL-DCF significantly advances the state-of-the-art models by an average of ~2.0% (max F-measure) across seven challenging datasets. In addition, we show that JL-DCF is readily applicable to other related multi-modal detection tasks, including RGB-T (thermal infrared) SOD and video SOD, achieving comparable or even better performance against state-of-the-art methods. We also link JL-DCF to the RGB-D semantic segmentation field, showing its capability of outperforming several semantic segmentation models on the task of RGB-D SOD. These facts further confirm that the proposed framework could offer a potential solution for various applications and provide more insight into the cross-modal complementarity task.

연구 동기 및 목표

  • RGB와 깊이를 별도의 네트워크로 처리하는 기존 RGB-D SOD 모델의 성능 한계를 해결하기 위해 RGB와 깊이를 독립적인 입력으로 간주하지 않기 위해.
  • 희박한 고품질 깊이 데이터와 복잡한 학습 과정에 대한 과도한 의존성으로 인한 특징 추출 및 융합 과제를 극복하기 위해.
  • Siamese 아키텍처를 통해 RGB와 깊이 간의 공통적인 특징을 활용해 강력하고 공유되는 특징 학습을 실현하기 위해.
  • RGB-D SOD를 넘어서 RGB-T 및 비디오 SOD와 같은 다른 다중 모odal 작업에 적용 가능한 통합 프레임워크를 개발하기 위해.
  • RGB-D SOD와 의미적 세그멘테이션 간의 이식 가능성 탐색을 통해, JL-DCF가 적응된 SOTA 세그멘테이션 모델을 능가함을 보여주기 위해.

제안 방법

  • 공유 백본을 사용하는 Siamese 네트워크를 활용해 RGB 및 깊이 입력으로부터 계층적 특징을 동시에 추출하는 공동 학습(JL) 모듈을 제안한다.
  • 다양한 스케일에서 모달 간 특징을 융합함으로써 상호 보완적인 특징 학습을 가능하게 하는 조밀한 협력 융합(DCF) 모듈을 도입한다.
  • 조기 융합 또는 후기 융합의 한계를 피하기 위해, 독립적인 추출 이후에 특징을 융합하는 중간 융합 전략을 채택한다.
  • RGB와 깊이 간의 주목적 신호 공통성(예: 도형-배경 대비, 윤곽 닫힘, 경계 연결성 등)을 활용해 다중 모달 특징 전이를 가능하게 한다.
  • 공유 백본과 융합 메커니즘의 재사용을 통해 RGB-T SOD 및 비디오 SOD와 같은 다른 작업으로의 프레임워크 적응을 수행한다.
  • 의미적 세그멘테이션 모델(예: PSPNet, DANet, SA-Gate)을 RGB-D SOD 작업에 적용하기 위해 분류 헤드를 주목적 예측 헤드로 교체하여 공정한 비교를 수행한다.

실험 결과

연구 질문

  • RQ1Siamese 네트워크는 주목적 객체 검출을 위한 RGB와 깊이 간의 공유 다중 모달 표현을 효과적으로 학습할 수 있는가?
  • RQ2공유 백본을 사용한 공동 학습은 독립적인 모달 전용 네트워크 대비 특징의 강건성과 일반화 능력을 향상시키는가?
  • RQ3조밀한 협력 융합은 RGB와 깊이의 상호 보완적 특징을 효과적으로 활용해 검출 정확도를 향상시키는가?
  • RQ4JL-DCF 프레임워크는 RGB-T SOD 및 비디오 SOD와 같은 다른 다중 모달 작업으로 얼마나 잘 일반화되는가?
  • RQ5적응된 RGB-D SOD 작업에서 최신 기술 수준의 의미적 세그멘테이션 모델과 제안된 프레임워크 사이에 의미 있는 성능 격차가 존재하는가?

주요 결과

  • JL-DCF는 기존 최신 기술 수준 모델 대비 7개의 벤치마크 데이터셋에서 평균 F-측정치 약 2.0% 향상시켰다.
  • SGNet은 RGB-D SOD에 적응했을 때 성능이 크게 떨어지며, 이는 깊이 정보를 가이던스 신호로 의존하기 때문일 수 있다.
  • JL-DCF는 RGB-T SOD 및 비디오 SOD 작업으로도 효과적으로 일반화되어 전용 SOTA 방법과 비교해 유사하거나 뛰어난 성능을 기록했다.
  • 제거 실험 결과는 공동 학습 및 조밀한 협력 융합 구성 요소가 특징 표현 및 검출 정확도 향상에 효과적임을 확인했다.
  • 결과는 주목적 신호의 다중 모달 상호 보완성(예: 윤곽 닫힘, 경계 연결성 등)이 공유 Siamese 학습을 통해 효과적으로 활용될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.