[논문 리뷰] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
본 논문은 심층 CNN과 완전 연결 CRFs를 결합하여 픽셀 수준의 의미론적 분할을 수행하며, 밀집형 CRF로 localization 문제를 해결하고 atrous( hole ) 알고리즘으로 효율성을 향상시켜 PASCAL VOC 2012에서 최첨단 성능을 달성한다.
Deep Convolutional Neural Networks (DCNNs) have recently shown state of the art performance in high level vision tasks, such as image classification and object detection. This work brings together methods from DCNNs and probabilistic graphical models for addressing the task of pixel-level classification (also called "semantic image segmentation"). We show that responses at the final layer of DCNNs are not sufficiently localized for accurate object segmentation. This is due to the very invariance properties that make DCNNs good for high level tasks. We overcome this poor localization property of deep networks by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF). Qualitatively, our "DeepLab" system is able to localize segment boundaries at a level of accuracy which is beyond previous methods. Quantitatively, our method sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 71.6% IOU accuracy in the test set. We show how these results can be obtained efficiently: Careful network re-purposing and a novel application of the 'hole' algorithm from the wavelet community allow dense computation of neural net responses at 8 frames per second on a modern GPU.
연구 동기 및 목표
- DCNN의 불변성이 localization을 해치는 픽셀 수준의 의미론적 분할을 고안한다.
- 사전 학습된 CNN을 최소한의 성능 손실로 조밀한 특징 추출기로 재활용한다.
- 경계 정제를 위해 DCNN의 unary 항과 완전 연결 CRF를 결합하여 로컬라이제이션을 해결한다.
제안 방법
- 16-layer CNN(VGG-16)을 완전 컨볼루셔널 네트워크로 전환하여 밀집한 픽셀별 점수화를 수행한다.
- 8-픽셀 스트라이드에서 밀집특징 맵을 계산하기 위해 hole(atrous) 알고리즘을 사용하여 고해상도 점수 맵을 가능하게 한다.
- 밀집 출력에 대해 픽셀별 교차 엔트로피를 사용하여 21-클래스 픽셀 레이블링을 위해 PASCAL VOC 2012에서 CNN을 미세조정한다.
- 경계 정제를 위해 bilateral 및 공간 커널을 갖는 완전 연결 CRF(Krähenbühl & Koltun 2011)를 부착한다.
- 로컬라이제이션 향상을 위해 중간 CNN 층의 다중 스케일 특징을 선택적으로 도입한다.
- 정확도와 속도의 균형을 맞추기 위해 다양한 수용 영역 설정(atrous 커널 크기와 스트라이드)의 변형을 탐구한다.
실험 결과
연구 질문
- RQ1DCNN 기반 unary 항과 결합된 완전 연결 CRF가 의미론적 분할에서 로컬라이제이션을 향상시킬 수 있는가?
- RQ2다중 스케일 특징과 큰 필드-오브-뷰가 분할 성능에 미치는 영향은 무엇인가?
- RQ3atrous 합성곱 접근법이 밀집 점수 계산과 전반적 효율성에 어떤 영향을 미치는가?
- RQ4수용 영역과 FOV를 바꿀 때 정확도, 속도, 모델 크기 사이에 어떤 트레이드오프가 존재하는가?
주요 결과
- PASCAL VOC 2012 테스트 세트에서 최첨단 평균 IOU를 달성(DeepLab-MSc-CRF-LargeFOV에서 71.6%).
- DeepLab 시스템에 완전 연결 CRF를 추가하면 성능이 크게 향상된다(예: DeepLab-CRF가 검증 데이터에서 DeepLab보다 약 4% 향상).
- 다중 스케일 특징은 추가 로컬라이제이션 이점을 제공하고 CRF와 결합될 때 IoU를 더욱 향상시킨다.
- atrous( hole ) 알고리즘은 현대 GPU에서 8 fps의 속도로 밀집 8-픽셀 스트라이드 CNN 점수를 가능하게 하며, VOC 이미지에 대한 CRF 추론은 평균 0.5초 미만으로 실행된다.
- 대형 Field-of-View 변형은 일부 대안에 비해 더 빠른 런타임에서 경쟁력 있거나 우수한 정확도를 달성하여 실시간 혹은 실시간 근접 응용에 효과적인 트레이드오프를 보여준다.
- VOC 2012 테스트 세트에서 단일 모델 중 최고 성능(DeepLab-MSc-CRF-LargeFOV)은 71.6% mean IOU로 FCN-8s 및 동종의 다른 모델들을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.