Skip to main content
QUICK REVIEW

[논문 리뷰] Pyramid Scene Parsing Network

Hengshuang Zhao, Jianping Shi|arXiv (Cornell University)|2016. 12. 04.
Advanced Image and Video Retrieval Techniques참고 문헌 36인용 수 314
한 줄 요약

PSPNet은 픽셀 단위의 장면 해석을 위한 다중 스케일 글로벌 컨텍스트를 포착하기 위해 4단 피라미드 풀링 모듈을 도입하여, 깊이 감독된 ResNet 기반 FCN으로 ADE20K, PASCAL VOC 2012, Cityscapes에서 최첨단 성능을 달성한다.

ABSTRACT

Scene parsing is challenging for unrestricted open vocabulary and diverse scenes. In this paper, we exploit the capability of global context information by different-region-based context aggregation through our pyramid pooling module together with the proposed pyramid scene parsing network (PSPNet). Our global prior representation is effective to produce good quality results on the scene parsing task, while PSPNet provides a superior framework for pixel-level prediction tasks. The proposed approach achieves state-of-the-art performance on various datasets. It came first in ImageNet scene parsing challenge 2016, PASCAL VOC 2012 benchmark and Cityscapes benchmark. A single PSPNet yields new record of mIoU accuracy 85.4% on PASCAL VOC 2012 and accuracy 80.2% on Cityscapes.

연구 동기 및 목표

  • 전역 장면 컨텍스트를 활용하여 개방된 어휘와 다양한 장면에서 정확한 장면 해석을 유도한다.
  • 다중 스케일 컨텍스트 정보를 집계하기 위한 피라미드 풀링 모듈을 개발한다.
  • 깊은 ResNet 기반 FCN의 최적화를 용이하게 하기 위해 깊은 감독을 통합한다.
  • 재현 가능한 장면 해석 결과를 위한 실용적이고 상세한 구현을 제공한다.

제안 방법

  • 확대된 ResNet 특징 맵 위에 네 가지 피라미드 수준(1x1, 2x2, 3x3, 6x6)의 특징을 융합하는 피라미드 풀링 모듈을 제안한다.
  • 피라미드 풀링된 특징을 원래의 특징 맵과 연결(concatenate)하고, 최종 컨볼루션을 적용하여 픽셀 단위 레이블을 예측한다.
  • 평균 풀링을 사용하고(경험적으로 최대 풀링보다 우수한 것으로 밝혀짐) 차원을 축소하기 위해 1x1 컨볼루션을 적용한 다음 업샘플링과 연결(concatenate)을 수행한다.
  • 매우 깊은 네트워크의 최적화를 용이하게 하기 위해 중간 ResNet 블록(res4b22)에 보조 손실을 추가하여 깊은 감독 학습 전략을 채택한다.
  • 데이터 증강과 다항식 학습률 정책으로 엔드 투 엔드로 학습하고; ADE20K, PASCAL VOC 2012, Cityscapes에서 평가한다.

실험 결과

연구 질문

  • RQ1피라미드 기반의 글로벌 컨텍스트 사전 정보가 열려 있는 어휘 데이터셋(e.g., ADE20K)에 대해 픽셀 단위의 장면 해석을 개선할 수 있는가?
  • RQ2다중 스케일 지역 풀링이 글로벌 풀링만보다 맥락 관계를 더 잘 인코딩하는가?
  • RQ3깊은 감독이 시맨틱 세그멘테이션을 위한 매우 깊은 ResNet 기반 FCN의 학습에 도움이 되는가?
  • RQ4풀링 유형(평균 vs. 최대)과 차원 축소가 세그멘테이션 성능에 미치는 영향은 무엇인가?

주요 결과

방법Mean IoU(%)픽셀 정확도(%)
Baseline (ResNet50, dilated)37.2378.01
ResNet50+DA+AL37.2378.01
ResNet50+DA+AL+PSP41.6880.04
ResNet269+DA+AL+PSP+MS44.9481.69
  • PSPNet은 4단 피라미드 풀링을 갖춘 네트워크로 평균 IoU 및 픽셀 정확도에서 ResNet 기반 기준선 대비 유의미한 향상을 보인다.
  • 구성 전반에서 평균 풀링이 최대 풀링보다 우수하다.
  • 연결(concatenate) 전에 풀링 후 차원 축소가 더 높은 성능을 낸다.
  • 더 깊은 네트워크(ResNet269)와 보조 손실, PSP를 결합하면 정확도가 더 높아지고, 다중 스케일 테스트로 성능이 추가로 향상된다.
  • ADE20K에서 깊은 감독 및 PSP를 적용한 PSPNet은 기준선 대비 큰 이점을 보이고, 단일 모델 결과가 VOC 2012의 여러 멀티모델 앙상블에 근접하거나 이를 능가한다.
  • VOC 2012에서 PSPNet은 MS-COCO 사전 학습과 강력한 클래스별 성능으로 85.4% VOC 정확도를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.