Skip to main content
QUICK REVIEW

[논문 리뷰] Dual Attention Network for Scene Segmentation

Jun Fu, Jing Liu|arXiv (Cornell University)|2018. 09. 09.
Advanced Neural Network Applications참고 문헌 38인용 수 211
한 줄 요약

DANet은 dilated FCN 위에 공간(위치) 및 채널 주의 모듈을 도입하여 글로벌 의존성을 포착하고 Cityscapes, PASCAL Context, COCO Stuff, PASCAL VOC 2012 데이터세트에서 최첨단 결과를 달성합니다.

ABSTRACT

In this paper, we address the scene segmentation task by capturing rich contextual dependencies based on the selfattention mechanism. Unlike previous works that capture contexts by multi-scale features fusion, we propose a Dual Attention Networks (DANet) to adaptively integrate local features with their global dependencies. Specifically, we append two types of attention modules on top of traditional dilated FCN, which model the semantic interdependencies in spatial and channel dimensions respectively. The position attention module selectively aggregates the features at each position by a weighted sum of the features at all positions. Similar features would be related to each other regardless of their distances. Meanwhile, the channel attention module selectively emphasizes interdependent channel maps by integrating associated features among all channel maps. We sum the outputs of the two attention modules to further improve feature representation which contributes to more precise segmentation results. We achieve new state-of-the-art segmentation performance on three challenging scene segmentation datasets, i.e., Cityscapes, PASCAL Context and COCO Stuff dataset. In particular, a Mean IoU score of 81.5% on Cityscapes test set is achieved without using coarse data. We make the code and trained model publicly available at https://github.com/junfu1115/DANet

연구 동기 및 목표

  • 다중 스케일 특성 융합을 넘어 장거리 컨텍스트 의존성을 모델링하여 장면 분할을 개선하려는 동기 부여.
  • 공간 및 채널 관계를 포착하기 위해 두 가지 보완적인 자기 주의 모듈(위치 및 채널) 제안.
  • 주의 모듈 출력의 융합이 픽셀 단위 예측을 위한 특징 표현을 향상시킴을 보여준다.

제안 방법

  • 확장된 확장형 FCN 백본 위에 두 개의 평행 자기 주의 모듈을 추가한다.
  • Position Attention Module: 공간 주의 맵 S를 계산하고 E = alpha * D * S^T + A를 산출하며, alpha는 0에서 시작해 학습된다.
  • Channel Attention Module: A로부터 채널 주의 맵 X를 계산하고 E = beta * X * A^T + A를 산출하며, beta는 0에서 시작해 학습된다.
  • 두 주의 강화 피처를 컨볼루션 임베딩과 원소별 합으로 융합한 뒤, 예측 맵을 얻기 위한 최종 컨볼루션을 적용한다.

실험 결과

연구 질문

  • RQ1공간 관계의 자기 주의 모델링(위치 주의)이 장거리 의존성을 포착하여 픽셀 단위 분할을 개선할 수 있는가?
  • RQ2특징 채널 간의 상호 의존성 모델링(채널 주의)이 시맨틱 클래스의 구별성을 향상시킬 수 있는가?
  • RQ3공간 주의와 채널 주의를 결합하면 어느 하나의 모듈보다 더 나은 성능을 낼까?

주요 결과

  • 위치 주의만으로 주의하는 경우 평균 Mean IoU가 75.74%로 향상됩니다(ResNet-50 기준).
  • 채널 주의만으로 주의하는 경우 평균 IoU가 기준 대비 4.25% 향상됩니다.
  • PAM과 CAM을 모두 결합하면 평균 IoU가 76.34%로 향상됩니다(ResNet-50).
  • 백본으로 ResNet-101을 사용하고 두 모듈을 모두 적용하면 Cityscapes val에서 77.57% Mean IoU를 달성합니다.
  • 데이터 증강, 다중 격자, 다중 스케일 추론을 적용한 DANet-101은 Cityscapes val에서 81.50% Mean IoU에 도달하여 표에 제시된 Deeplabv3 및 기타 모델보다 우수합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.