QUICK REVIEW

[논문 리뷰] Fast-SCNN: Fast Semantic Segmentation Network

Rudra P. K. Poudel, Stephan Liwicki|arXiv (Cornell University)|2019. 02. 12.

Advanced Neural Network Applications참고 문헌 26인용 수 364

한 줄 요약

Fast-SCNN은 공유 조기 특징 추출기를 갖춘 고해상도 이미지에 대한 초실시간 초과의 의미 분할을 제공하며, Cityscapes에서 1.11M 매개변수를 사용하고 ImageNet 사전학습의 이점이 최소한으로 큰 이득을 주지 않으면서 123.5 fps에서 68.0% mIoU를 달성합니다.

ABSTRACT

The encoder-decoder framework is state-of-the-art for offline semantic image segmentation. Since the rise in autonomous systems, real-time computation is increasingly desirable. In this paper, we introduce fast segmentation convolutional neural network (Fast-SCNN), an above real-time semantic segmentation model on high resolution image data (1024x2048px) suited to efficient computation on embedded devices with low memory. Building on existing two-branch methods for fast segmentation, we introduce our `learning to downsample' module which computes low-level features for multiple resolution branches simultaneously. Our network combines spatial detail at high resolution with deep features extracted at lower resolution, yielding an accuracy of 68.0% mean intersection over union at 123.5 frames per second on Cityscapes. We also show that large scale pre-training is unnecessary. We thoroughly validate our metric in experiments with ImageNet pre-training and the coarse labeled data of Cityscapes. Finally, we show even faster computation with competitive results on subsampled inputs, without any network modifications.

연구 동기 및 목표

고해상도 이미징과 임베디드 장치를 위한 실시간 의미 분할의 동기를 제시합니다.
세부 정보와 맥락을 효율적으로 결합하기 위해 학습된 다운샘플링을 포함한 공유 조기 특징 추출기 도입.
깊이별 분리 컨볼루션과 역잔여 블록을 사용하여 저용량 네트워크(1.11M 매개변수) 설계.
이 저용량 모델에 대한 ImageNet 사전학습의 이득이 제한적임을 입증합니다.

제안 방법

두 해상도 분기에 걸쳐 조기 합성곱을 공유하는 학습 기반 다운샘플링 모듈이 있는 빠른 분할 네트워크(Fast-SCNN)를 제안합니다.
잔여 병목 블록으로 축소 해상도에서 맥락을 포착하기 위한 거친 글로벌 특징 추출기를 사용합니다.
간단한 덧셈을 통해 고해상도 공간적 세부 정보와 낮은 해상도 글로벌 맥락을 결합하는 특징 융합 모듈을 도입합니다.
매개변수와 FLOPs를 줄이기 위해 깊이별 분리 컨볼루션과 역잔여 블록을 적용합니다.
깊이별 분리 컨볼루션의 작은 스택과 가능한 소프트맥스(또는 argmax) 추론 옵션을 가진 분류기 헤드를 포함합니다.

실험 결과

연구 질문

RQ1높은 메모리 요구 없이 임베디드 장치를 사용하여 고해상도 이미지에서 실시간 의미 분할을 어떻게 달성할 수 있는가?
RQ2해상도 분기 간에 초기 레이어 계산을 공유하는 것이(학습을 다운샘플링으로) 정확도를 보존하면서 속도를 높일 수 있는가?
RQ3경량 모델에서 네트워크 용량과 사전학습이 Cityscapes 성능에 미치는 영향은 무엇인가?

주요 결과

Fast-SCNN은 1024x2048 입력에서 Titan Xp (Pascal)에서 Cityscapes에서 123.5 fps로 68.0% mIoU를 달성한다.
모델은 약 1.11백만 매개변수를 사용하며, 많은 실시간 및 오프라인 방법보다 현저히 적다.
학습을 다운샘플링 모듈과 단일 스킵 연결이 효율적인 다중 해상도 특징 공유 및 경계 보전을 가능하게 한다.
ImageNet에서의 사전 학습이나 거친 Cityscapes 데이터를 추가하는 것은 이 저용량 네트워크에 대해 미미한 이득을 가져다준다(≈0.5% mIoU).
입력 해상도를 낮추면 FPS가 증가합니다(예: 1024x2048: 123.5 fps; 512x1024: 285.8 fps; 256x512: 485.4 fps)와 대응하는 mIoU는 (68.0%, 62.8%, 51.9%)입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.