Skip to main content
QUICK REVIEW

[논문 리뷰] Fast-SCNN: Fast Semantic Segmentation Network

Rudra P. K. Poudel, Stephan Liwicki|arXiv (Cornell University)|2019. 02. 12.
Advanced Neural Network Applications참고 문헌 26인용 수 364
한 줄 요약

Fast-SCNN은 공유 조기 특징 추출기를 갖춘 고해상도 이미지에 대한 초실시간 초과의 의미 분할을 제공하며, Cityscapes에서 1.11M 매개변수를 사용하고 ImageNet 사전학습의 이점이 최소한으로 큰 이득을 주지 않으면서 123.5 fps에서 68.0% mIoU를 달성합니다.

ABSTRACT

The encoder-decoder framework is state-of-the-art for offline semantic image segmentation. Since the rise in autonomous systems, real-time computation is increasingly desirable. In this paper, we introduce fast segmentation convolutional neural network (Fast-SCNN), an above real-time semantic segmentation model on high resolution image data (1024x2048px) suited to efficient computation on embedded devices with low memory. Building on existing two-branch methods for fast segmentation, we introduce our `learning to downsample' module which computes low-level features for multiple resolution branches simultaneously. Our network combines spatial detail at high resolution with deep features extracted at lower resolution, yielding an accuracy of 68.0% mean intersection over union at 123.5 frames per second on Cityscapes. We also show that large scale pre-training is unnecessary. We thoroughly validate our metric in experiments with ImageNet pre-training and the coarse labeled data of Cityscapes. Finally, we show even faster computation with competitive results on subsampled inputs, without any network modifications.

연구 동기 및 목표

  • 고해상도 이미징과 임베디드 장치를 위한 실시간 의미 분할의 동기를 제시합니다.
  • 세부 정보와 맥락을 효율적으로 결합하기 위해 학습된 다운샘플링을 포함한 공유 조기 특징 추출기 도입.
  • 깊이별 분리 컨볼루션과 역잔여 블록을 사용하여 저용량 네트워크(1.11M 매개변수) 설계.
  • 이 저용량 모델에 대한 ImageNet 사전학습의 이득이 제한적임을 입증합니다.

제안 방법

  • 두 해상도 분기에 걸쳐 조기 합성곱을 공유하는 학습 기반 다운샘플링 모듈이 있는 빠른 분할 네트워크(Fast-SCNN)를 제안합니다.
  • 잔여 병목 블록으로 축소 해상도에서 맥락을 포착하기 위한 거친 글로벌 특징 추출기를 사용합니다.
  • 간단한 덧셈을 통해 고해상도 공간적 세부 정보와 낮은 해상도 글로벌 맥락을 결합하는 특징 융합 모듈을 도입합니다.
  • 매개변수와 FLOPs를 줄이기 위해 깊이별 분리 컨볼루션과 역잔여 블록을 적용합니다.
  • 깊이별 분리 컨볼루션의 작은 스택과 가능한 소프트맥스(또는 argmax) 추론 옵션을 가진 분류기 헤드를 포함합니다.

실험 결과

연구 질문

  • RQ1높은 메모리 요구 없이 임베디드 장치를 사용하여 고해상도 이미지에서 실시간 의미 분할을 어떻게 달성할 수 있는가?
  • RQ2해상도 분기 간에 초기 레이어 계산을 공유하는 것이(학습을 다운샘플링으로) 정확도를 보존하면서 속도를 높일 수 있는가?
  • RQ3경량 모델에서 네트워크 용량과 사전학습이 Cityscapes 성능에 미치는 영향은 무엇인가?

주요 결과

  • Fast-SCNN은 1024x2048 입력에서 Titan Xp (Pascal)에서 Cityscapes에서 123.5 fps로 68.0% mIoU를 달성한다.
  • 모델은 약 1.11백만 매개변수를 사용하며, 많은 실시간 및 오프라인 방법보다 현저히 적다.
  • 학습을 다운샘플링 모듈과 단일 스킵 연결이 효율적인 다중 해상도 특징 공유 및 경계 보전을 가능하게 한다.
  • ImageNet에서의 사전 학습이나 거친 Cityscapes 데이터를 추가하는 것은 이 저용량 네트워크에 대해 미미한 이득을 가져다준다(≈0.5% mIoU).
  • 입력 해상도를 낮추면 FPS가 증가합니다(예: 1024x2048: 123.5 fps; 512x1024: 285.8 fps; 256x512: 485.4 fps)와 대응하는 mIoU는 (68.0%, 62.8%, 51.9%)입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.