[논문 리뷰] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
DeepLab은 dense features를 위한 atrous convolution, 다중 스케일 컨텍스트를 위한 ASPP, 경계 정제를 위한 Fully Connected CRF를 사용하는 시맨틱 세분화 시스템으로, PASCAL VOC 2012 및 다른 데이터셋에서 최첨단 결과를 달성합니다.
In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions that are experimentally shown to have substantial practical merit. First, we highlight convolution with upsampled filters, or 'atrous convolution', as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second, we propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at multiple scales. Third, we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed "DeepLab" system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 79.7% mIOU in the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code is made publicly available online.
연구 동기 및 목표
- DCNN을 시맨틱 세분화에 적용하는 세 가지 도전 과제: (i) 감소된 특징 해상도, (ii) 다중 스케일 객체 크기, 그리고 (iii) 위치 추정 정확도.
- 추가 매개변수 없이 특징 해상도를 제어하고 receptive field를 확대하기 위해 atrous convolution을 제안.
- 다중 스케일 컨텍스트를 효율적으로 포착하기 위해 atrous Spatial Pyramid Pooling (ASPP)을 도입.
- DCNN 출력 위에 완전 연결 CRF를 통합하여 경계 위치 추정 개선.
제안 방법
- 일반 DCNN보다 높은 해상도에서 조밀한 특징 맵을 계산하기 위해 atrous convolution으로 구성된 완전 연결 합성곱 신경망을 사용합니다.
- 표준 다계층 다운샘플링을 매개변수를 증가시키지 않으면서 시야를 확장하는 atrous convolution으로 대체합니다.
- 다른 비율의 병렬 atrous 합성곱으로 다중 스케일 컨텍스트를 포착하는 ASPP를 구현합니다.
- 최종 DCNN 점수 맵을 원본 이미지 크기로 양선형 보간으로 업샘플링한 후, 경계가 선명하도록 완전 연결 CRF로 정제합니다.
- 시맨틱 세분화를 위해 Imagenet 사전 학습 네트워크(VGG-16 또는 ResNet-101)를 미세조정하고, CRF 매개변수는 검증 세트에서 별도로 학습합니다.
- Caffe 프레임워크를 확장하는 공개 코드 및 모델을 제공합니다.
실험 결과
연구 질문
- RQ1 atrous convolution이 추가 매개변수나 계산 없이 고해상도 밀도 예측을 가능하게 하는가?
- RQ2atrous spatial pyramid pooling이 다중 스케일 객체에서 이미지 다중 스케일 처리보다 더 효율적으로 세분화를 개선하는가?
- RQ3DCNN 출력과 완전 연결 CRF의 결합이 경계 위치 추정과 전체 세분화 정확도를 개선하는가?
- RQ4깊은 네트워크(VGG-16 대 ResNet-101)가 atrous convolution 및 ASPP를 사용할 때 시맨틱 세분화 성능에 미치는 영향은 무엇인가?
주요 결과
- atrous convolution을 가진 DeepLab은 원래 이미지 크기로의 양선형 업샘플링과 함께 고해상도 특징 맵(8x 샘플링)을 달성합니다.
- ASPP는 서로 다른 샘플링 속도에서 특징을 탐지하여 다중 스케일 객체 세분화를 개선합니다.
- 완전 연결 CRF가 경계선을 세밀하게 다듬고 위치 추정을 개선하여, Variants 전반에 걸쳐 평균 IOU에서 약 3–5%의 절대 이득을 제공합니다.
- PASCAL VOC 2012에서 DeepLab-CRF-LargeFOV는 공식 테스트 세트에서 70.3% 평균 IOU에 도달하며 VOC 2012, PASCAL-Context, PASCAL-Person-Part 및 Cityscapes에서 최첨단 결과를 보고합니다.
- 더 큰 시야(작은 커널에 높은 비율)와 CRF를 결합하면 정확도-속도 트레이드오프에서 최적의 성능을 제공합니다(예: DeepLab-LargeFOV).
- ASPP 및 CRF가 포함된 DeepLab 변형은 컨퍼런스 버전의 결과를 능가하고 더 깊은 네트워크와 다중 스케일 처리에서 이득을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.