QUICK REVIEW

[논문 리뷰] Context Encoding for Semantic Segmentation

Hang Zhang, Kristin Dana|arXiv (Cornell University)|2018. 03. 23.

Advanced Neural Network Applications참고 문헌 51인용 수 135

한 줄 요약

EncNet라는 Context Encoding Module을 도입하여 Encoding Layer를 통해 글로벌 장면 컨텍스트를 활용하고 Semantic Encoding Loss를 통해 추가 계산을 최소화하면서 시맨틱 세분화를 향상시키며, PASCAL VOC 2012, PASCAL-Context, ADE20K에서 최첨단 성능을 달성합니다.

ABSTRACT

Recent work has made significant progress in improving spatial resolution for pixelwise labeling with Fully Convolutional Network (FCN) framework by employing Dilated/Atrous convolution, utilizing multi-scale features and refining boundaries. In this paper, we explore the impact of global contextual information in semantic segmentation by introducing the Context Encoding Module, which captures the semantic context of scenes and selectively highlights class-dependent featuremaps. The proposed Context Encoding Module significantly improves semantic segmentation results with only marginal extra computation cost over FCN. Our approach has achieved new state-of-the-art results 51.7% mIoU on PASCAL-Context, 85.9% mIoU on PASCAL VOC 2012. Our single model achieves a final score of 0.5567 on ADE20K test set, which surpass the winning entry of COCO-Place Challenge in 2017. In addition, we also explore how the Context Encoding Module can improve the feature representation of relatively shallow networks for the image classification on CIFAR-10 dataset. Our 14 layer network has achieved an error rate of 3.45%, which is comparable with state-of-the-art approaches with over 10 times more layers. The source code for the complete system are publicly available.

연구 동기 및 목표

세분화 중 가능한 객체 카테고리의 탐색 공간을 줄이기 위해 전역 장면 컨텍스트의 사용을 촉진한다.
전역 특징 통계를 인코딩하고 선택적으로 클래스 의존적 특징 맵을 스케일링하는 경량 모듈을 개발한다.
현장에 존재하는 범주 인식을 촉진하기 위해 Semantic Encoding Loss로 학습을 정규화한다.
Dilated FCN 백본(EncNet)에 Context Encoding Module를 통합하고 표준 벤치마크에서 평가한다.
이미지 분류(CIFAR-10)에서 얕은 네트워크에 대한 컨텍스트 인코딩의 추가 이점을 입증한다.

제안 방법

Dense convolutional features로부터 전역 컨텍스트 통계를 캡처하기 위해 Encoding Layer를 확장한다.
Encoding Layer 출력의 특징 맵에 대한 채널별 스케일링 팩터를 예측하고 원소별 곱셈을 통해 적용한다.
학습을 정규화하기 위해 장면 내 객체 카테고리의 존재를 예측하는 SE-loss를 도입한다.
사전 학습된 Dilated convolutions를 가진 ResNet 위에 Context Encoding Module를 삽입하여 EncNet을 구축하고, 옵션으로 다수 단계에서 SE-loss를 적용한다.
더 큰 유효 배치 크기에 대하여 학습을 안정시키기 위해 동기화된 Cross-GPU 배치 정규화를 사용한다.
표준 지표(pixAcc, mIoU)로 PASCAL-Context, PASCAL VOC 2012, ADE20K에서 평가하고, CIFAR-10 분류 성능도 테스트한다.

실험 결과

연구 질문

RQ1노출된 글로벌 컨텍스트 모델링이 수용 영역 확장 기법을 넘어 픽셀 단위의 시맨틱 세분화를 향상시키는가?
RQ2경량 Context Encoding Module이 큰 계산 오버헤드 없이 세분화를 개선할 수 있는가?
RQ3SE-loss가 장면 수준 의미론과 작은 객체 세분화의 학습에 어떤 영향을 미치는가?
RQ4COCO 사전학습 없이 PASCAL-Context, VOC 2012 및 ADE20K에서 EncNet이 최신 방법과 경쟁하거나 우수한가?
RQ5컨텍스트 인코딩의 이점이 이미지 분류(CIFAR-10)에서 더 얕은 네트워크에도 확장될 수 있는가?

주요 결과

Context Encoding Module을 갖춘 EncNet은 FCN 기본값 대비 상당한 이득을 얻는다(예: ResNet-50 기준 41.0% mIoU에서 47.6% mIoU로).
ResNet-101로 PASCAL-Context에서 51.7% mIoU, PASCAL VOC 2012에서 85.9% mIoU를 달성(VOC의 경우 COCO 사전학습 사용).
EncNet-101 단일 모델은 ADE20K 테스트 세트에서 0.5567를 달성하여 COCO-Place Challenge 2017 우승자를 능가.
SE-loss 가중치 0.2와 Encoding Layer의 32 codewords가 최적의 절삭 성능을 제공하며, 추가 계산은 미미하다.
CIFAR-10에서 14-layer EncNet이 3.96% 오류를 달성하여 더 깊은 모델과 경쟁적이며, 컨텍스트 인코딩의 범용성을 보여준다.
EncNet은 기존 FCN 기반 프레임워크와의 효율성 및 호환성을 유지하면서 주요 분할 벤치마크에서 최첨단 결과를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.