QUICK REVIEW

[논문 리뷰] High-performance Semantic Segmentation Using Very Deep Fully Convolutional Networks

Zifeng Wu, Chunhua Shen|arXiv (Cornell University)|2016. 04. 15.

Advanced Neural Network Applications참고 문헌 22인용 수 84

한 줄 요약

이 논문은 매우 깊은 완전 컨volution 신경망을 사용한 고성능 의미적 세그멘테이션 방법을 제안하며, GPU 메모리 제약을 극복하기 위해 새로운 저해상도 네트워크 시뮬레이션 기법과 훈련을 향상시키기 위한 온라인 부트스트랩 전략을 도입한다. 이는 PASCAL VOC 2012 데이터셋에서 78.3%의 새로운 최고 성능 mIoU 스코어와 Cityscapes에서 77.3%의 성능을 기록한다.

ABSTRACT

We propose a method for high-performance semantic image segmentation (or semantic pixel labelling) based on very deep residual networks, which achieves the state-of-the-art performance. A few design factors are carefully considered to this end. We make the following contributions. (i) First, we evaluate different variations of a fully convolutional residual network so as to find the best configuration, including the number of layers, the resolution of feature maps, and the size of field-of-view. Our experiments show that further enlarging the field-of-view and increasing the resolution of feature maps are typically beneficial, which however inevitably leads to a higher demand for GPU memories. To walk around the limitation, we propose a new method to simulate a high resolution network with a low resolution network, which can be applied during training and/or testing. (ii) Second, we propose an online bootstrapping method for training. We demonstrate that online bootstrapping is critically important for achieving good accuracy. (iii) Third we apply the traditional dropout to some of the residual blocks, which further improves the performance. (iv) Finally, our method achieves the currently best mean intersection-over-union 78.3\% on the PASCAL VOC 2012 dataset, as well as on the recent dataset Cityscapes.

연구 동기 및 목표

매우 깊은 완전 컨volution 잔차망을 사용하여 의미적 이미지 세그멘테이션에서 최고 성능을 달성하기 위해.
깊은 네트워크에서 고해상도 특징 맵과 넓은 시야각으로 인해 발생하는 GPU 메모리 제약을 해결하기 위해.
훈련 중에 어려운 양성 및 음성 픽셀을 효과적으로 추출하여 훈련 정확도를 향상시키기 위해.
잔차 블록, 드롭아웃, 시야각 크기와 같은 아키텍처 구성 요소가 세그멘테이션 성능에 미치는 영향을 평가하기 위해.

제안 방법

훈련 및 추론 중에 저해상도 네트워크를 사용하여 고해상도 특징 맵을 시뮬레이션하는 방법을 제안하여 GPU 메모리 사용량을 감소시킨다.
모델 일반화를 향상시키기 위해 동적으로 어려운 훈련 픽셀(높은 손실 샘플)을 선택하는 온라인 부트스트랩 기법을 도입한다.
과적합을 줄이고 일반화 성능을 향상시키기 위해 선택된 잔차 블록에 드롭아웃 정규화를 적용한다.
확장된 수신장과 함께 고해상도 특징 맵을 유지하기 위해 확장 컨볼루션과 스킵 연결을 활용한다.
완전 컨볼루션 잔차망을 최적화하기 위해 확률적 경사 하강법과 데이터 증강을 사용한 엔드 투 엔드 훈련을 수행한다.
효과적인 전이 학습을 가능하게 하기 위해 사전 훈련된 ImageNet 가중치를 네트워크 초기화에 활용한다.

실험 결과

연구 질문

RQ1완전 컨볼루션 잔차망에서 네트워크 깊이, 특징 맵 해상도, 시야각 크기가 의미적 세그멘테이션 성능에 미치는 영향은 무엇인가?
RQ2저해상도 네트워크가 정확도를 손상시키지 않고 고해상도 네트워크의 동작을 효과적으로 시뮬레이션할 수 있는가?
RQ3온라인 부트스트랩이 의미적 세그멘테이션 작업의 훈련 정확도와 수렴에 미치는 영향은 무엇인가?
RQ4잔차 블록에 드롭아웃을 적용할 경우 모델 일반화 및 벤치마크 데이터셋에서의 성능에 어떤 영향을 미치는가?
RQ5의미적 세그멘테이션에서 성능과 계산 비용 사이의 최적의 트레이드오프를 이루는 아키텍처 구성은 무엇인가?

주요 결과

제안된 방법은 PASCAL VOC 2012 검증 세트에서 78.3%의 새로운 최고 성능 mIoU 스코어를 기록하여 이전 방법을 초월한다.
온라인 부트스트랩은 모델 정확도를 크게 향상시켜 최적의 성능 달성에 핵심적인 역할을 한다는 점을 입증한다.
특징 맵의 시야각과 해상도를 증가시키면 세그멘테이션 성능이 향상되지만, 이는 GPU 메모리 사용량 증가를 수반한다.
제안된 시뮬레이션 방법은 정확도를 유지하면서도 메모리 소비를 줄여 훈련 및 추론을 가능하게 하여 GPU 메모리 제약을 효과적으로 완화한다.
잔차 블록에 드롭아웃을 적용하면 성능 향상이 더해지며, 깊은 세그멘테이션 네트워크에서 과적합을 줄이는 데 그 가치가 있음을 시사한다.
Cityscapes 데이터셋에서의 평균 IoU는 77.3%를 기록하여, 다양한 벤치마크 데이터셋에 걸쳐 강력한 일반화 능력을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.