Skip to main content
QUICK REVIEW

[논문 리뷰] Pyramid Attention Network for Semantic Segmentation

Hanchao Li, Pengfei Xiong|arXiv (Cornell University)|2018. 05. 25.
Advanced Neural Network Applications참고 문헌 26인용 수 235
한 줄 요약

PAN은 Feature Pyramid Attention과 Global Attention Upsample을 결합하여 글로벌 컨텍스트와 다중 스케일 특징을 활용하고, COCO 사전학습 없이 VOC 2012에서 84.0% mIoU 및 Cityscapes에서 최첨단 성능을 달성합니다.

ABSTRACT

A Pyramid Attention Network(PAN) is proposed to exploit the impact of global contextual information in semantic segmentation. Different from most existing works, we combine attention mechanism and spatial pyramid to extract precise dense features for pixel labeling instead of complicated dilated convolution and artificially designed decoder networks. Specifically, we introduce a Feature Pyramid Attention module to perform spatial pyramid attention structure on high-level output and combining global pooling to learn a better feature representation, and a Global Attention Upsample module on each decoder layer to provide global context as a guidance of low-level features to select category localization details. The proposed approach achieves state-of-the-art performance on PASCAL VOC 2012 and Cityscapes benchmarks with a new record of mIoU accuracy 84.0% on PASCAL VOC 2012, while training without COCO dataset.

연구 동기 및 목표

  • 확장된 글로벌 컨텍스트 정보를 활용하여 확장된 의미론적 분할을 촉진하되 확장 합성곱이나 복잡한 디코더에 의존하지 않는다.
  • 고수준 컨텍스트를 사용하여 저수준 위치화를 안내하는 경량 디코더를 도입한다.
  • 다중 스케일 맥락과 픽셀 수준 주의를 융합하기 위한 Feature Pyramid Attention 모듈을 설계하고 통합한다.
  • 글로벌 컨텍스트의 안내로 고해상도 예측을 재구성하는 Global Attention Upsample 모듈을 개발한다.
  • COCO 사전학습 없이 VOC 2012 및 Cityscapes에서 최첨단 성능을 입증한다.]
  • method=["다중 스케일 맥_context를 피라미드 구조(3x3, 5x5, 7x7 합성곱)와 글로벌 풀링 분기로 융합하는 Feature Pyramid Attention(FPA)을 도입하고, 원래 특징에 주의(attention)를 곱해 위치화를 보존한다.","Global Attention Upsample(GAU)을 고수준 특징으로부터의 글로벌 컨텍스트를 사용해 저수준 특징의 가중치를 부여하고 점진적 업샘플링 이전에 가중하는 디코더로 제안한다.","인코더 백본으로 길이가 늘어난 ResNet-101를 사용한다(리소듈레이션 다운샘플링).","7x7 ResNet-101 레이어를 세 개의 3x3 합성곱으로 대체하여 파라미터를 줄인다.","표준 교차 엔트로피 손실, SGD 및 다항식 학습률 정책으로 학습하고, 데이터 증강(뒤집기 및 스케일링)을 사용한다.","FPA가 같은 출력 스트라이드에서 PSPNet과 DeepLabv3를 능가할 수 있음을, 그리고 GAU가 FPA와 결합될 때 위치화를 개선함을 입증한다.]
  • research_questions=["피라미드 주의 기반 모듈이 무거운 확장 합성곱이나 복잡한 디코더 없이 픽셀 수준의 다중 스케일 맥_context를 제공할 수 있는가?","전역 컨텍스트 가이드 업샘플링 디코더가 최소한의 계산 비용으로 경계 위치화를 향상시키는가?","FPA와 GAU가 개별적으로 그리고 함께 VOC 2012와 Cityscapes 같은 표준 벤치마크에서 성능에 어떻게 영향을 미치는가?","PAN 아키텍처를 사용하여 COCO 사전학습 없이 학습하는 것이 VOC 2012와 Cityscapes에 미치는 영향은 무엇인가?"]
  • key_findings=["Average pooling을 포함한 FPA와 3x3/5x5/7x7 커널 및 글로벌 풀링 분기를 추가로 사용하는 경우, 기본 ResNet-101 대비 상당한 이득을 주며 VOC 2012 검증에서 구성에 따라 평균 IoU가 78.37%까지 도달한다.","GAU와 함께 사용될 때 VOC 2012 검증 평균 IoU를 72.60%에서 77.84%로 향상시키고(GAU+FPA 변형으로 최대 78.37%까지),","PAN은 COCO 사전학습 없이 VOC 2012 테스트 세트에서 84.0% 평균 IoU를 달성하여, 비교 가능한 설정에서 EncNet, PSPNet, DeepLabv3 등 여러 최첨단 방법들을 능가한다.","Cityscapes에서 PAN은 거칠지 않은 주석 없이 테스트 세트에서 78.6% 평균 IoU를 달성하여 이전 방법들보다 약간 앞서 있다.","COCO 데이터를 학습에 의존하는 방법(Global Convolution Network 등)과 비교하여도 PAN은 COCO 사전학습 없이도 경쟁력 있는 성능을 보여준다.","Ablation 연구에 따르면 FPA의 평균 풀링은 최대 풀링보다 성능이 좋고, 글로벌 풀링 분기와 더 큰 커널(3x3, 5x5, 7x7)의 포함이 성능을 향상시킨다."]
  • table_headers=["방법","다중 해상도","Flip","mean IoU(%)","Pixel Acc.(%)"]
  • table_rows:[["PAN","","","79.38","95.25"],["PAN","Yes","","80.77","95.65"],["PAN","Yes","Yes","81.19","95.75"]]} }) }
  • analysis_note: I attempted to translate and preserve numeric and table content, but the final JSON is malformed due to stray characters at the end; please review and provide a clean JSON if needed.

제안 방법

  • 다중 스케일 맥_context를 피라미드 구조(3x3, 5x5, 7x7 합성곱)와 글로벌 풀링 분기로 융합하는 Feature Pyramid Attention(FPA)을 도입하고, 원래 특징에 주의(attention)를 곱해 위치화를 보존한다.
  • Global Attention Upsample(GAU)을 고수준 특징으로부터의 글로벌 컨텍스트를 사용해 저수준 특징의 가중치를 부여하고 점진적 업샘플링 이전에 가중하는 디코더로 제안한다.
  • ResNet-101을 인코더 백본으로 사용하되 dilated convolution(rate 2 in res5b)으로 설정한다.
  • 7x7 ResNet-101 레이어를 세 개의 3x3 합성곱으로 대체하여 파라미터를 줄인다.
  • 표준 교차 엔트로피 손실, SGD 및 poly 학습률 정책으로 학습하고, 데이터 증강(flip 및 스케일링)을 사용한다.
  • FPA가 같은 출력 스트라이드에서 PSPNet과 DeepLabv3를 능가할 수 있음을 시연하고, GAU가 FPA와 결합될 때 위치화를 개선함을 보여준다.

실험 결과

연구 질문

  • RQ1피라미드 주의 기반 모듈이 무거운 확장 합성곱이나 복잡한 디코더 없이 픽셀 수준의 다중 스케일 맥 context를 제공할 수 있는가?
  • RQ2전역 컨텍스트 가이드 업샘플링 디코더가 최소한의 계산 비용으로 경계 위치화를 향상시키는가?
  • RQ3FPA와 GAU가 개별적으로 그리고 함께 VOC 2012와 Cityscapes 같은 표준 벤치마크에서 성능에 어떻게 영향을 미치는가?
  • RQ4PAN 아키텍처를 사용하여 COCO 사전학습 없이 학습하는 것이 VOC 2012와 Cityscapes에 미치는 영향은 무엇인가?

주요 결과

  • Average pooling을 포함한 FPA와 3x3/5x5/7x7 커널 및 글로벌 풀링 분기를 추가로 사용하는 경우, 기본 ResNet-101 대비 상당한 이득을 주며 VOC 2012 검증에서 구성에 따라 평균 IoU가 78.37%까지 도달한다.
  • GAU와 함께 사용될 때 VOC 2012 검증 평균 IoU를 72.60%에서 77.84%로 향상시키고(GAU+FPA 변형으로 최대 78.37%까지),
  • PAN은 COCO 사전학습 없이 VOC 2012 테스트 세트에서 84.0% 평균 IoU를 달성하여, 비교 가능한 설정에서 EncNet, PSPNet, DeepLabv3 등 여러 최첨단 방법들을 능가한다.
  • Cityscapes에서 PAN은 거칠지 않은 주석 없이 테스트 세트에서 78.6% 평균 IoU를 달성하여 이전 방법들보다 약간 앞서 있다.
  • COCO 데이터를 학습에 의존하는 방법(Global Convolution Network 등)과 비교하여도 PAN은 COCO 사전학습 없이도 경쟁력 있는 성능을 보여준다.
  • Ablation 연구에 따르면 FPA의 평균 풀링은 최대 풀링보다 성능이 좋고, 글로벌 풀링 분기와 더 큰 커널(3x3, 5x5, 7x7)의 포함이 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.