Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding Convolution for Semantic Segmentation

Panqu Wang, Pengfei Chen|arXiv (Cornell University)|2017. 02. 27.
Advanced Neural Network Applications인용 수 47
한 줄 요약

이 논문은 픽셀 수준의 의미 분할을 향상시키기 위해 두 가지 새로운 컨볼루션 연산—Dense Upsampling Convolution (DUC)과 Hybrid Dilated Convolution (HDC)—을 제안한다. DUC는 학습 가능한 고해상도 특징 업스케일링을 가능하게 하며, HDC는 다양한 확장 비율을 사용하여 확장 컨볼루션에서 발생하는 '격자 현상'을 완화한다. 이 방법은 CRF 후처리 없이도 Cityscapes에서 mIoU 80.1%, PASCAL VOC2012에서 83.1%의 최신 기준 성능을 달성한다.

ABSTRACT

Recent advances in deep learning, especially deep convolutional neural networks (CNNs), have led to significant improvement over previous semantic segmentation systems. Here we show how to improve pixel-wise semantic segmentation by manipulating convolution-related operations that are of both theoretical and practical value. First, we design dense upsampling convolution (DUC) to generate pixel-level prediction, which is able to capture and decode more detailed information that is generally missing in bilinear upsampling. Second, we propose a hybrid dilated convolution (HDC) framework in the encoding phase. This framework 1) effectively enlarges the receptive fields (RF) of the network to aggregate global information; 2) alleviates what we call the "gridding issue" caused by the standard dilated convolution operation. We evaluate our approaches thoroughly on the Cityscapes dataset, and achieve a state-of-art result of 80.1% mIOU in the test set at the time of submission. We also have achieved state-of-the-art overall on the KITTI road estimation benchmark and the PASCAL VOC2012 segmentation task. Our source code can be found at https://github.com/TuSimple/TuSimple-DUC .

연구 동기 및 목표

  • 인코딩 및 디코딩 단계에서 컨볼루션 연산을 재고함으로써 픽셀 수준의 의미 분할 성능을 향상시키기.
  • 이중선형 업샘플링에서 발생하는 세밀한 세부 정보 손실 문제를 해결하기 위해 학습 가능한 밀집 업샘플링 메커니즘을 도입하기.
  • 표준 확장 컨볼루션에서 발생하는 희박한 커널 샘플링으로 인해 지역적 공간 정보를 누락하는 '격자 현상'을 해결하기.
  • 다운샘플링 없이 수용영역을 효과적으로 확대하여 전반적인 맥락 통합을 향상시키기.
  • Cityscapes, KITTI, PASCAL VOC2012와 같은 주요 벤치마크에서 최신 기준 성능을 달성하기.

제안 방법

  • 특징 맵을 전체 해상도로 업스케일링하기 위해 필터 집합을 학습하는 Dense Upsampling Convolution (DUC)을 제안하며, 이는 엔드 투 엔드 학습을 가능하게 하고 세밀한 세부 정보를 유지한다.
  • 동일한 공간 레이어에서 병렬로 여러 확장 비율을 적용하고 출력을 연결함으로써 수용영역 커버리지 향상을 도모하는 Hybrid Dilated Convolution (HDC)을 도입한다.
  • HDC에서 다중 비율 확장 전략을 사용하여 동일한 레이어에 서로 다른 확장 비율을 적용함으로써 표준 확장 컨볼루션의 확인 패턴을 감소시킨다.
  • DUC가 이중선형 업샘플링을 대체하고 HDC가 인코더 내 표준 확장 컨볼루션을 대체하도록 수정된 ResNet-101 백본을 사용한다.
  • 한정된 데이터셋(예: KITTI)에서 데이터 증강 및 컷 기반 학습을 활용해 표준 최적화 방법을 사용해 네트워크를 엔드 투 엔드로 학습시킨다.
  • CRF 후처리는 분석 연구에서만 적용되며, 최고의 성능는 CRF 없이도 달성되어 제안된 모듈의 강력함을 입증한다.

실험 결과

연구 질문

  • RQ1DUC와 같은 학습 가능한 업샘플링 연산이 이중선형 업샘플링보다 세밀한 분할 세부 정보를 더 잘 유지할 수 있는가?
  • RQ2하나의 레이어에서 다수의 확장 비율을 사용하는 것(HDC)이 표준 확장 컨볼루션에서 관찰되는 격자 현상을 줄일 수 있는가?
  • RQ3HDC는 조밀한 공간 커버리지 유지와 함께 수용영역을 효과적으로 확대하여 더 나은 맥락 모델링을 가능하게 하는가?
  • RQ4DUC와 HDC는 Cityscapes, KITTI, PASCAL VOC2012와 같은 주요 벤치마크에서 성능 향상에 어느 정도 기여하는가?
  • RQ5제안된 모듈은 CRF 후처리에 의존하지 않고도 최신 기준 성능을 달성할 수 있는가?

주요 결과

  • 제안된 ResNet-DUC-HDC 모델은 CRF 후처리 없이 단일 모델로 Cityscapes 테스트 세트에서 최신 기준 mIoU 80.1%를 달성한다.
  • KITTI 도로 분할 벤치마크에서, 모든 서브카테고리에서 최고의 최대 F1 측정치(96.41%)와 평균 정밀도(93.88%)를 기록한다.
  • PASCAL VOC2012에서 단일 모델로 테스트 세트에서 mIoU 83.1%를 달성하여 이전 방법들보다 뚜렷한 성능 향상을 보였다.
  • DUC 모듈은 작은 객체에서 mIoU를 크게 향상시켜 이중선형 업샘플링에서 손실되는 세밀한 세부 정보를 유지하는 데 효과적임을 입증한다.
  • HDC 프레임워크는 특히 큰 수용영역을 가진 깊은 레이어에서 더 조밀한 샘플링 패턴을 제공함으로써 격자 현상을 효과적으로 감소시킨다.
  • 모델 앙상블이나 다중 해상도 테스트 없이도 모든 세 가지 벤치마크에서 최신 기준 성능을 달성하여 제안된 모듈의 강건성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.