QUICK REVIEW

[논문 리뷰] The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation

Simon Jégou, Michal Drozdzal|arXiv (Cornell University)|2016. 11. 28.

Advanced Neural Network Applications인용 수 10

한 줄 요약

이 논문은 세분화 분류를 위해 DenseNet을 확장한 완전 컨볼루션형, 완전 밀접한 U-Net 유사 아키텍처인 FC-DenseNet을 소개한다. 다운샘플링 및 업샘플링 경로 전반에 걸쳐 밀접한 블록과 스킵 커넥션을 적용하고, 각 해상도에서 업샘플링을 오직 마지막 밀접한 블록에 한정함으로써, 후처리나 사전학습 없이도 CamVid 및 Gatech에서 최신 기술 수준의 성능을 달성하면서도 파라미터 수를 크게 줄였다 (1000만 이하).

ABSTRACT

State-of-the-art approaches for semantic image segmentation are built on Convolutional Neural Networks (CNNs). The typical segmentation architecture is composed of (a) a downsampling path responsible for extracting coarse semantic features, followed by (b) an upsampling path trained to recover the input image resolution at the output of the model and, optionally, (c) a post-processing module (e.g. Conditional Random Fields) to refine the model predictions. Recently, a new CNN architecture, Densely Connected Convolutional Networks (DenseNets), has shown excellent results on image classification tasks. The idea of DenseNets is based on the observation that if each layer is directly connected to every other layer in a feed-forward fashion then the network will be more accurate and easier to train. In this paper, we extend DenseNets to deal with the problem of semantic segmentation. We achieve state-of-the-art results on urban scene benchmark datasets such as CamVid and Gatech, without any further post-processing module nor pretraining. Moreover, due to smart construction of the model, our approach has much less parameters than currently published best entries for these datasets. Code to reproduce the experiments is available here : https://github.com/SimJeg/FC-DenseNet/blob/master/train.py

연구 동기 및 목표

후처리나 사전학습에 의존하지 않고 DenseNet을 완전 컨볼루션형 네트워크로 확장하여 세분화 분류에 적용하는 것.
DenseNet에서 모든 특징 맵을 단순히 업샘플링할 경우 계산 비용이 기하급수적으로 증가하는 문제를 해결하기 위해, 각 해상도에서 오직 마지막 밀접한 블록만 업샘플링하도록 제한함으로써 계산 비용을 줄이는 것.
밀접한 연결 구조와 스킵 커넥션을 활용해 특징 재사용과 다중 척도 감시를 통해 최소한의 파라미터로 높은 성능을 달성하는 것.
완전 컨볼루션형 DenseNet 아키텍처가 도시 환경 세분화 벤치마크에서 기존 최신 기술 수준의 모델을 능가할 수 있음을 입증하는 것.

제안 방법

다운샘플링 경로에서 특징 맵을 반복적으로 연결함으로써 밀접한 블록을 사용하여 특징 재사용과 암묵적 깊은 감시를 가능하게 한다.
특정한 업샘플링 경로를 설계하여 각 해상도에서 오직 마지막 밀접한 블록의 특징 맵만 업샘플링함으로써 특징 맵 수의 기하급수적 증가를 방지한다.
다운샘플링 경로와 업샘플링 경로의 대응하는 레이어 간에 스킵 커넥션을 사용하여 세밀한 공간적 세부 정보를 유지한다.
표준 교차 엔트로피 손실과 소프트맥스 출력을 사용하여 엔드 투 엔드 방식으로 네트워크를 훈련시킨다.
특징 맵의 차원을 제어하고 계산 비용을 줄이기 위해 전이 레이어(전이 다운/업)를 사용한다.
최종 아키텍처는 구성에 따라 56에서 103층까지의 깊은 완전 컨볼루션형 네트워크이며, 예를 들어 FC-DenseNet103 등으로 표현된다.

실험 결과

연구 질문

RQ1DenseNet의 밀접한 연결 구조와 특징 재사용 기법이 완전 컨볼루션형 세분화 분류 네트워크로 효과적으로 확장될 수 있는가?
RQ2완전 컨볼루션형 DenseNet 아키텍처가 도시 환경 데이터셋에서 후처리나 사전학습 없이 최신 기술 수준의 성능을 달성할 수 있는가?
RQ3DenseNet에서 모든 특징 맵을 업샘플링할 경우 발생하는 계산 비용 문제를 성능 손실 없이 완화할 수 있는가?
RQ4FC-DenseNet의 파라미터 효율성은 FCN, U-Net 또는 DeepLab과 같은 기존 완전 컨볼루션 모델과 비교해 어떻게 되는가?
RQ52D 컨볼루션만을 사용함에도 불구하고, 이 모델은 비디오 세분화 작업에 대해 잘 일반화될 수 있는가?

주요 결과

FC-DenseNet103은 CamVid 데이터셋에서 후처리나 사전학습 없이도 mIoU 66.9%를 달성하여 이전 최신 기술 수준의 모델을 능가했다.
CamVid에서 모델은 전역 정확도 91.5%를 기록했으며, 이는 이전 모델인 Dilation8 (+FSO)의 88.3%를 크게 뛰어넘었다.
Gatech 데이터셋에서 FC-DenseNet103은 전역 정확도 79.4%를 기록했으며, 2D 컨볼루션 기반 이전 최신 기술 수준 모델 대비 23.7% 향상되었고, 3D 스펙트럴-시간 모델 대비 3.4% 향상되었다.
모델은 오직 940만 개의 파라미터만을 사용했으며, 이는 이전 최신 기술 수준 모델인 Dilation8 (+FSO)의 14080만 개 파라미터 대비 약 10배 감소한 것이다.
아키텍처는 비디오 세분화 작업에서도 강력한 일반화 성능을 보였으며, 단지 2D 컨볼루션만을 사용함에도 불구하고 시간 정보를 활용한 3D 모델들을 능가하는 79.4%의 정확도를 기록했다.
제거 분석 결과, 추가 감시 헤드 없이도 모델의 성능이 안정적이었으며, 이는 밀접한 연결 패턴으로 인한 암묵적 깊은 감시의 효과를 확인시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.