QUICK REVIEW

[논문 리뷰] Siamese Network for RGB-D Salient Object Detection and Beyond

Keren Fu, Deng-Ping Fan|arXiv (Cornell University)|2020. 08. 26.

Visual Attention and Saliency Detection참고 문헌 154인용 수 25

한 줄 요약

이 논문은 공유 백본을 사용해 RGB 및 깊이 모odalities의 특징을 동시에 추출함으로써 양방향 특징 전이를 가능하게 하는 Siamese 네트워크 기반의 RGB-D 주목적 객체 검출 프레임워크인 JL-DCF를 제안한다. 이 방법은 7개의 벤치마크에서 평균 F-측정치를 약 2.0% 향상시키며 최신 기술 수준을 초월하며, RGB-T 및 비디오 SOD 작업으로의 일반화 능력도 뛰어나다.

ABSTRACT

Existing RGB-D salient object detection (SOD) models usually treat RGB and depth as independent information and design separate networks for feature extraction from each. Such schemes can easily be constrained by a limited amount of training data or over-reliance on an elaborately designed training process. Inspired by the observation that RGB and depth modalities actually present certain commonality in distinguishing salient objects, a novel joint learning and densely cooperative fusion (JL-DCF) architecture is designed to learn from both RGB and depth inputs through a shared network backbone, known as the Siamese architecture. In this paper, we propose two effective components: joint learning (JL), and densely cooperative fusion (DCF). The JL module provides robust saliency feature learning by exploiting cross-modal commonality via a Siamese network, while the DCF module is introduced for complementary feature discovery. Comprehensive experiments using five popular metrics show that the designed framework yields a robust RGB-D saliency detector with good generalization. As a result, JL-DCF significantly advances the state-of-the-art models by an average of ~2.0% (max F-measure) across seven challenging datasets. In addition, we show that JL-DCF is readily applicable to other related multi-modal detection tasks, including RGB-T (thermal infrared) SOD and video SOD, achieving comparable or even better performance against state-of-the-art methods. We also link JL-DCF to the RGB-D semantic segmentation field, showing its capability of outperforming several semantic segmentation models on the task of RGB-D SOD. These facts further confirm that the proposed framework could offer a potential solution for various applications and provide more insight into the cross-modal complementarity task.

연구 동기 및 목표

RGB와 깊이를 별도의 네트워크로 처리하는 기존 RGB-D SOD 모델의 성능 한계를 해결하기 위해 RGB와 깊이를 독립적인 입력으로 간주하지 않기 위해.
희박한 고품질 깊이 데이터와 복잡한 학습 과정에 대한 과도한 의존성으로 인한 특징 추출 및 융합 과제를 극복하기 위해.
Siamese 아키텍처를 통해 RGB와 깊이 간의 공통적인 특징을 활용해 강력하고 공유되는 특징 학습을 실현하기 위해.
RGB-D SOD를 넘어서 RGB-T 및 비디오 SOD와 같은 다른 다중 모odal 작업에 적용 가능한 통합 프레임워크를 개발하기 위해.
RGB-D SOD와 의미적 세그멘테이션 간의 이식 가능성 탐색을 통해, JL-DCF가 적응된 SOTA 세그멘테이션 모델을 능가함을 보여주기 위해.

제안 방법

공유 백본을 사용하는 Siamese 네트워크를 활용해 RGB 및 깊이 입력으로부터 계층적 특징을 동시에 추출하는 공동 학습(JL) 모듈을 제안한다.
다양한 스케일에서 모달 간 특징을 융합함으로써 상호 보완적인 특징 학습을 가능하게 하는 조밀한 협력 융합(DCF) 모듈을 도입한다.
조기 융합 또는 후기 융합의 한계를 피하기 위해, 독립적인 추출 이후에 특징을 융합하는 중간 융합 전략을 채택한다.
RGB와 깊이 간의 주목적 신호 공통성(예: 도형-배경 대비, 윤곽 닫힘, 경계 연결성 등)을 활용해 다중 모달 특징 전이를 가능하게 한다.
공유 백본과 융합 메커니즘의 재사용을 통해 RGB-T SOD 및 비디오 SOD와 같은 다른 작업으로의 프레임워크 적응을 수행한다.
의미적 세그멘테이션 모델(예: PSPNet, DANet, SA-Gate)을 RGB-D SOD 작업에 적용하기 위해 분류 헤드를 주목적 예측 헤드로 교체하여 공정한 비교를 수행한다.

실험 결과

연구 질문

RQ1Siamese 네트워크는 주목적 객체 검출을 위한 RGB와 깊이 간의 공유 다중 모달 표현을 효과적으로 학습할 수 있는가?
RQ2공유 백본을 사용한 공동 학습은 독립적인 모달 전용 네트워크 대비 특징의 강건성과 일반화 능력을 향상시키는가?
RQ3조밀한 협력 융합은 RGB와 깊이의 상호 보완적 특징을 효과적으로 활용해 검출 정확도를 향상시키는가?
RQ4JL-DCF 프레임워크는 RGB-T SOD 및 비디오 SOD와 같은 다른 다중 모달 작업으로 얼마나 잘 일반화되는가?
RQ5적응된 RGB-D SOD 작업에서 최신 기술 수준의 의미적 세그멘테이션 모델과 제안된 프레임워크 사이에 의미 있는 성능 격차가 존재하는가?

주요 결과

JL-DCF는 기존 최신 기술 수준 모델 대비 7개의 벤치마크 데이터셋에서 평균 F-측정치 약 2.0% 향상시켰다.
SGNet은 RGB-D SOD에 적응했을 때 성능이 크게 떨어지며, 이는 깊이 정보를 가이던스 신호로 의존하기 때문일 수 있다.
JL-DCF는 RGB-T SOD 및 비디오 SOD 작업으로도 효과적으로 일반화되어 전용 SOTA 방법과 비교해 유사하거나 뛰어난 성능을 기록했다.
제거 실험 결과는 공동 학습 및 조밀한 협력 융합 구성 요소가 특징 표현 및 검출 정확도 향상에 효과적임을 확인했다.
결과는 주목적 신호의 다중 모달 상호 보완성(예: 윤곽 닫힘, 경계 연결성 등)이 공유 Siamese 학습을 통해 효과적으로 활용될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.