[논문 리뷰] CGNet: A Light-weight Context Guided Network for Semantic Segmentation
CGNet은 경량 Context Guided (CG) 블록과 CGNet 네트워크를 도입하여 모바일 배치를 위한 0.5M 매개변수 미만으로 경쟁력 있는 의미 분할 정확도를 달성합니다(도시 풍경 Cityscapes에서 64.8% mIoU).
The demand of applying semantic segmentation model on mobile devices has been increasing rapidly. Current state-of-the-art networks have enormous amount of parameters hence unsuitable for mobile devices, while other small memory footprint models follow the spirit of classification network and ignore the inherent characteristic of semantic segmentation. To tackle this problem, we propose a novel Context Guided Network (CGNet), which is a light-weight and efficient network for semantic segmentation. We first propose the Context Guided (CG) block, which learns the joint feature of both local feature and surrounding context, and further improves the joint feature with the global context. Based on the CG block, we develop CGNet which captures contextual information in all stages of the network and is specially tailored for increasing segmentation accuracy. CGNet is also elaborately designed to reduce the number of parameters and save memory footprint. Under an equivalent number of parameters, the proposed CGNet significantly outperforms existing segmentation networks. Extensive experiments on Cityscapes and CamVid datasets verify the effectiveness of the proposed approach. Specifically, without any post-processing and multi-scale testing, the proposed CGNet achieves 64.8% mean IoU on Cityscapes with less than 0.5 M parameters. The source code for the complete system can be found at https://github.com/wutianyiRosun/CGNet.
연구 동기 및 목표
- 메모리 및 계산 예산이 제한된 모바일 디바이스에서 의미 분할을 동기부여한다.
- 공간적 디테일을 보존하면서 지역적, 주변 맥락 및 글로벌 맥락을 활용하는 네트워크를 설계한다.
- 주요 로컬-주변-글로벌 특징을 학습하는 Context Guided (CG) 블록이 있는 경량 백본(CGNet)을 제시한다.
- 높은 분할 정확도를 유지하면서 파라미터 수와 메모리 사용량을 줄인다.]
- method ["CG 블록은 로컬 특징 추출기, 주변 맥 context 추출기, 결합 특징 추출기, 글로벌 맥 context 추출기로 구성됩니다.","주변 맥 context를 위한 확장된(atrue) 합성곱과 결합 특징 재가중화를 위한 글로벌 맥 context 경로를 사용합니다.","정보 흐름을 개선하기 위해 잔차 연결(로컬 및 글로벌 잔차 학습)을 적용합니다.","CGNet은 3개의 다운샘플링 스테이지(1/2, 1/4, 1/8 해상도)와 채널별 합성곱으로 파라미터를 절약합니다.","앞단 인풋 주입을 도입하여 다운샘플링된 입력을 후반 스테이지에 피드해 특징 전파를 강화합니다.","포스트 프로세싱이나 다중 스케일 테스트 없이 Cityscapes와 CamVid에서 학습 및 평가하고, 작은 footprint과 높은 정확도 모델과 비교합니다.]
제안 방법
- CG 블록은 Local Feature Extractor, Surrounding Context Extractor, Joint Feature Extractor, Global Context Extractor로 구성됩니다.
- Surrounding context를 위한 dilated(atrus) 합성곱과 Joint Features를 재가중하기 위한 Global Context Pathway를 사용합니다.
- 정보 흐름을 개선하기 위해 잔차 연결(Local 및 Global Residual Learning)을 적용합니다.
- CGNet을 3개의 Down-sampling 스테이지(1/2, 1/4, 1/8 해상도)와 채널별 합성곱으로 구성하여 파라미터를 절감합니다.
- Downsampled 입력을 후반 스테이지에 피드하기 위한 입력 주입(Input Injection)을 도입하여 특징 전파를 강화합니다.
- Post-processing 또는 다중 스케일 테스트 없이 Cityscapes와 CamVid에서 학습 및 평가하며, 소형 파라미터 모델과의 비교를 수행합니다.]
- research_questions: ["의미 분할을 모바일 디바이스에서 정확도를 희생하지 않고 어떻게 효율적으로 만들 수 있는가?","로컬 특징, 주변 맥 context, 글로벌 맥 context를 공동으로 모델링하는 블록이 전통적인 인코더-디코더 설계보다 분할 성능을 개선할 수 있는가?","Cityscapes 및 CamVid 데이터셋에서 모든 스테이지에 걸쳐 경량의 맥(context-guided) 블록을 사용하는 것이 어떤 영향을 미치는가?"]
- key_findings':['CGNet은 Cityscapes 테스트 세트에서 0.5M 매개변수 미만으로 64.8% mean IoU를 달성합니다.','CGNet은 동등한 매개변수 수에서 다른 소형 footprint 모델들(예: ENet, ESPNet)을 능가합니다 Cityscapes에서.','글로벌 맥 context 및 주변 맥 context 구성요소가 성능을 크게 향상시키며, 전체 주변 맥 context 모듈 및 글로벌 맥 context 모듈을 사용할 때 Ablation에서 상당한 이득이 확인됩니다.','CGNet은 파라미터 및 메모리 사용을 최소화하기 위해 3개의 다운샘플링 스테이지(1/8 해상도)와 채널별 합성곱만을 사용합니다.','Cityscapes에서 CGNet_M3N21은 0.5M 매개변수로 64.8% mIoU를 달성하고 런타임도 경쟁력 있습니다; CamVid에서 0.5M 매개변수로 65.6% mIoU를 달성합니다.'],
- table_headers:["방법","FLOPS (G) ↓","매개변수 (M) ↓","메모리 (M) ↓","mIoU (%) ↑","시간 (ms) ↓"]
- table_rows:[["CGNet_M3N21","6.0","0.5","334.0","64.8","56.8"]]} }
실험 결과
연구 질문
- RQ1의미 분할을 모바일 디바이스에서 정확도를 희생하지 않고 어떻게 효율적으로 만들 수 있는가?
- RQ2로컬 특징, 주변 맥 context, 글로벌 맥 context를 공동으로 모델링하는 블록이 전통적인 인코더-디코더 설계보다 분할 성능을 개선할 수 있는가?
- RQ3Cityscapes 및 CamVid 데이터셋에서 모든 스테이지에 걸쳐 경량의 맥(context-guided) 블록을 사용하는 것이 어떤 영향을 미치는가?
주요 결과
- CGNet은 Cityscapes 테스트 세트에서 0.5M 매개변수 미만으로 64.8% mean IoU를 달성합니다.
- CGNet은 동등한 매개변수 수에서 다른 소형 footprint 모델들(예: ENet, ESPNet)을 능가합니다 Cityscapes에서.
- 글로벌 맥 context 및 주변 맥 context 구성요소가 성능을 크게 향상시키며, 전체 주변 맥 context 모듈 및 글로벌 맥 context 모듈을 사용할 때 Ablation에서 상당한 이득이 확인됩니다.
- CGNet은 파라미터 및 메모리 사용을 최소화하기 위해 3개의 다운샘플링 스테이지(1/8 해상도)와 채널별 합성곱만을 사용합니다.
- Cityscapes에서 CGNet_M3N21은 0.5M 매개변수로 64.8% mIoU를 달성하고 런타임도 경쟁력 있습니다; CamVid에서 0.5M 매개변수로 65.6% mIoU를 달성합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.