QUICK REVIEW

[논문 리뷰] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling

Vijay Badrinarayanan, Ankur Handa|arXiv (Cornell University)|2015. 05. 27.

Advanced Neural Network Applications인용 수 56

한 줄 요약

SegNet는 학습된 업샘플링을 통해 전이된 풀링 인덱스를 사용하여 후처리 없이 부드럽고 정확한 세분화 맵을 생성하는 깊이 있는 인코더-디코더 컨볼루션 신경망을 제안한다. 계층적 특징 학습과 더 깊은 층을 통한 증가된 공간적 맥락을 활용하여 CamVid, KITTI, NYU 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

We propose a novel deep architecture, SegNet, for semantic pixel wise image labelling. SegNet has several attractive properties; (i) it only requires forward evaluation of a fully learnt function to obtain smooth label predictions, (ii) with increasing depth, a larger context is considered for pixel labelling which improves accuracy, and (iii) it is easy to visualise the effect of feature activation(s) in the pixel label space at any depth. SegNet is composed of a stack of encoders followed by a corresponding decoder stack which feeds into a soft-max classification layer. The decoders help map low resolution feature maps at the output of the encoder stack to full input image size feature maps. This addresses an important drawback of recent deep learning approaches which have adopted networks designed for object categorization for pixel wise labelling. These methods lack a mechanism to map deep layer feature maps to input dimensions. They resort to ad hoc methods to upsample features, e.g. by replication. This results in noisy predictions and also restricts the number of pooling layers in order to avoid too much upsampling and thus reduces spatial context. SegNet overcomes these problems by learning to map encoder outputs to image pixel labels. We test the performance of SegNet on outdoor RGB scenes from CamVid, KITTI and indoor scenes from the NYU dataset. Our results show that SegNet achieves state-of-the-art performance even without use of additional cues such as depth, video frames or post-processing with CRF models.

연구 동기 및 목표

복제와 같은 수단적인 업샘플링 방법을 사용하는 기존 딥 러닝 모델의 세분화 한계를 해결하기 위해.
디코더가 인코더의 저해상도 특징 맵을 입력 이미지의 차원으로 매핑할 수 있도록 학습함으로써 깊은 네트워크가 전체 해상도의 세분화 맵을 생성하도록 하기 위해.
더 깊은 층을 통해 공간적 맥락을 증가시켜 정확도를 향상시키고, 시나리오의 구조와 객체 간 관계를 더 잘 이해하도록 하기 위해.
모듈식이며 완전히 지도 학습 가능한 아키텍처를 제공하여 어떤 네트워크 깊이에서든 특징 활성화의 시각화와 추상화 연구를 가능하게 하기 위해.
특히 새로운 도메인에 대해 최소한의 피니팅으로도 효과적인 특징 전이가 가능하도록 사전 훈련된 인코더 가중치를 사용하여 데이터셋 간 특징의 이식 가능성(transferability)을 입증하기 위해.

제안 방법

SegNet는 각각 컨볼루션, ReLU 활성화 함수, 2×2 겹치지 않는 최대 풀링(하향샘플링 포함)으로 구성된 인코더 블록의 스택을 사용한다.
디코더 스택은 인코더의 최대 풀링 층에서 얻은 풀링 인덱스를 사용하여 전치되지 않은 학습 가능한 업샘플링을 수행함으로써 공간 차원을 복원한다.
각 디코더 블록은 업샘플된 특징 맵에 대해 학습 가능한 컨볼루션 필터를 적용하여 네트워크가 특징 공간의 구조적이고 맥락 인식 가능한 재구성 방식을 학습할 수 있도록 한다.
최종 디코더 출력은 각 픽셀 단위의 분류를 위해 소프트맥스 레이어를 통과하여 전체 해상도의 세분화 맵을 생성한다.
전체 네트워크는 픽셀 단위의 분류를 위한 교차 엔트로피 손실을 사용하여 엔드 투 엔드로 완전히 지도 학습된다.
모든 층에서 특징 맵의 수를 일정하게 유지함(일般적으로 64)으로써 계산 비용을 감소시키고 효율적인 추론을 가능하게 한다.

실험 결과

연구 질문

RQ1학습 가능한 업샘플링을 갖춘 깊이 있는 인코더-디코더 아키텍처가 수단적인 업샘플링 방법을 사용하는 표준 딥 네트워크보다 세분화 성능에서 뛰어나게 되는가?
RQ2네트워크의 깊이를 늘리고, 그로 인해 공간적 맥락을 증가시키면 더 부드럽고 정확한 픽셀 단위의 예측이 이루어지는가?
RQ3한 데이터셋에서 학습된 특징(예: CamVid)이 다른 데이터셋(예: KITTI)에 대해 최소한의 피니팅으로 효과적으로 전이 가능한가?
RQ4CRF 후처리나 다중 스케일 특징을 사용하는 방법과 비교했을 때, 제안된 아키텍처는 정확도와 추론 품질 측면에서 어떻게 성능을 내는가?
RQ5디코더 스택을 얼마나 잘 활용하여 픽셀 레이블 공간에서 특징 활성화의 영향을 시각화하고 분석할 수 있는가?

주요 결과

SegNet는 CRF 후처리, 깊이 정보, 영상 프레임을 사용하지 않아도 CamVid 데이터셋에서 최신 기술 수준의 성능을 달성한다.
KITTI 데이터셋에서 CamVid 사전 훈련된 SegNet의 최종 레이어만 피니팅함으로써 강력한 성능을 기록하여 도메인 간 효과적인 특징 전이를 입증한다.
NYU 데이터셋에서 SegNet은 13개 클래스 중 9개에서 다중 스케일 컨볼루션 넷을 능가하며, 더 깊은 맥락을 통해 척도 변화를 더 잘 다루는 것으로 나타났다.
전이된 풀링 인덱스를 통한 학습 가능한 업샘플링은 복제 기반 업샘플링보다 더 부드러운 세분화 맵을 생성하여 블록 모양의 잡음을 줄인다.
데이터셋 간에 고정된 매개변수 세트를 사용하더라도 SegNet는 정성적으로 올바른 세분화 결과를 생성하여 학습된 특징의 강력한 일반화 능력을 보여준다.
특징 맵의 수를 일정하게 유지함으로써 층의 깊이가 증가함에 따라 계산 비용이 감소하여 더 깊은 네트워크가 효율적이고 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.