QUICK REVIEW

[논문 리뷰] ACNet: Attention Based Network to Exploit Complementary Features for RGBD Semantic Segmentation

Xinxin Hu, Kailun Yang|arXiv (Cornell University)|2019. 05. 24.

Advanced Neural Network Applications참고 문헌 17인용 수 25

한 줄 요약

ACNet는 채널 주의 기반의 주의 보완 모듈(ACM)을 사용하여 RGB 및 깊이 특징을 선택적으로 융합하는 다중 브랜치 주의 네트워크를 제안한다. 이는 동적이고 맥락 인식 특징 통합을 가능하게 하며, ResNet-50를 사용하여 NYUDv2에서 48.3% mIoU를 달성하여 기존 방법보다 0.6%포인트 높은 최신 기술 성능을 달성한다.

ABSTRACT

Compared to RGB semantic segmentation, RGBD semantic segmentation can achieve better performance by taking depth information into consideration. However, it is still problematic for contemporary segmenters to effectively exploit RGBD information since the feature distributions of RGB and depth (D) images vary significantly in different scenes. In this paper, we propose an Attention Complementary Network (ACNet) that selectively gathers features from RGB and depth branches. The main contributions lie in the Attention Complementary Module (ACM) and the architecture with three parallel branches. More precisely, ACM is a channel attention-based module that extracts weighted features from RGB and depth branches. The architecture preserves the inference of the original RGB and depth branches, and enables the fusion branch at the same time. Based on the above structures, ACNet is capable of exploiting more high-quality features from different channels. We evaluate our model on SUN-RGBD and NYUDv2 datasets, and prove that our model outperforms state-of-the-art methods. In particular, a mIoU score of 48.3\% on NYUDv2 test set is achieved with ResNet50. We will release our source code based on PyTorch and the trained segmentation model at https://github.com/anheidelonghu/ACNet.

연구 동기 및 목표

실내 환경에서 RGB 및 깊이 특징 간 정보 분포의 비균형성과 비균일성을 다루기.
기존의 RGBD 세그멘테이션 네트워크에서 발생하는 과도한 융합 또는 부족한 융합으로 인해 원본 브랜치 표현이 손상되는 한계를 극복하기.
채널 기반 주의를 통해 네트워크의 다양한 깊이에서 RGB 및 깊이 브랜치로부터 가장 정보가 풍부한 특징을 적응적으로 선택하고 융합하는 메커니즘 설계.
RGB 및 깊이 특징에 대해 독립적인 추론 경로를 유지하면서도 다중 브랜치 아키텍처를 통해 효과적인 융합을 가능하게 하기.
양 모odal의 보완적 정보를 활용하여 표준 RGBD 벤치마크에서 세그멘테이션 정확도 향상

제안 방법

RGB 및 깊이 입력을 위한 두 개의 별도 ResNet 인코더와 병합된 특징을 위한 세 번째 융합 브랜치를 갖는 삼중 브랜치 아키텍처를 사용한다.
전역 평균 풀링 이후 1×1 컨볼루션과 시그모이드 활성화를 적용하여 채널 기반 주의 가중치를 계산하는 주의 보완 모듈(ACM)을 도입한다.
계산된 주의 가중치를 사용해 입력 특징 맵에 대해 채널 기반 요소별 곱셈(외적)을 수행하여 정보가 풍부한 채널을 강조한다.
가중치가 적용된 RGB 및 깊이 특징을 요소별 덧셈을 통해 융합 브랜치로 융합하여 맥락 인식형 동적 특징 통합을 가능하게 한다.
초기 융합을 방지하기 위해 네트워크 전반에 걸쳐 RGB 및 깊이의 독립적 특징 흐름을 유지한다.
NYUDv2 및 SUN-RGBD 데이터셋에서 교차 엔트로피 손실, 학습률 스케줄링 및 데이터 증강을 사용하여 네트워크를 훈련한다.

실험 결과

연구 질문

RQ1장면에 따라 정보량과 분포가 크게 다른 RGB 및 깊이 특징을 어떻게 선택적으로 융합할 수 있는가?
RQ2학습 가능한 주의 메커니즘이 네트워크의 다양한 깊이에서 RGB 및 깊이 브랜치의 더 정보가 풍부한 특징을 효과적으로 식별하고 우선순위를 정할 수 있는가?
RQ3조기 융합 또는 중간 수준 융합과 비교해, 독립적인 RGB 및 깊이 추론 경로를 유지하면서 늦은 시점 융합을 구현하면 세그멘테이션 성능 향상이 이루어지는가?
RQ4제안된 ACM이 RGBD 특징 맵의 채널 간 레이어 간 부재성과 동질화를 어느 정도 감소시키는가?
RQ5경량 백본인 ResNet-50를 사용하여 제안된 아키텍처가 표준 RGBD 벤치마크에서 최신 기술 성능을 달성할 수 있는가?

주요 결과

ACNet는 ResNet-50를 사용하여 NYUDv2 테스트 세트에서 48.3% mIoU를 달성하여 기존 방법보다 0.6%포인트 높은 최신 기술 성능을 달성한다.
SUN-RGBD 데이터셋에서 ACNet는 ResNet-50를 사용하여 48.1% mIoU를 기록했으며, 더 무거운 백본을 사용하는 CFN(RefineNet-152)와 동등한 성능을 달성한다.
제거 실험 결과, ACM을 제거하면 mIoU가 44.3%로 감소(모델-1), 주의 기반 특징 선택이 성능 향상에 핵심적임을 입증한다.
다중 브랜치 아키텍처의 기여도가 크며, ACM만 제거하고 아키텍처는 유지한 경우에도 mIoU가 46.8%로 감소하여 ACM 자체가 1.5%의 성능 향상을 기여함을 시사한다.
시각화 및 가중치 분석 결과, 하위 레이어(Convol 및 Layer1)에서는 RGB 특징이 지배적이지만, 고차원 레이어(Layer2–4)에서는 깊이 특징이 더 정보가 풍부해지며 동적 모달 선택이 확인된다.
주의 가중치의 표준편차는 Conv에서 Layer3까지 감소하여 특징 분포의 동질화가 향상됨을 보여주지만, Layer4에서 증가하여 부과된 특징의 선택적 제거가 이루어짐을 반영한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.