[논문 리뷰] DABNet: Depth-wise Asymmetric Bottleneck for Real-time Semantic Segmentation
DABNet은 Depth-wise Asymmetric Bottleneck 모듈을 도입하고 경량 네트워크를 구축하여 실시간 의미 분할을 달성하며 높은 정확도와 매우 적은 매개변수 수를 달성합니다. 예를 들어 0.76M 매개변수 및 GTX 1080Ti에서 27.7 FPS로 Cityscapes 테스트에서 70.1% mIoU.
As a pixel-level prediction task, semantic segmentation needs large computational cost with enormous parameters to obtain high performance. Recently, due to the increasing demand for autonomous systems and robots, it is significant to make a tradeoff between accuracy and inference speed. In this paper, we propose a novel Depthwise Asymmetric Bottleneck (DAB) module to address this dilemma, which efficiently adopts depth-wise asymmetric convolution and dilated convolution to build a bottleneck structure. Based on the DAB module, we design a Depth-wise Asymmetric Bottleneck Network (DABNet) especially for real-time semantic segmentation, which creates sufficient receptive field and densely utilizes the contextual information. Experiments on Cityscapes and CamVid datasets demonstrate that the proposed DABNet achieves a balance between speed and precision. Specifically, without any pretrained model and postprocessing, it achieves 70.1% Mean IoU on the Cityscapes test dataset with only 0.76 million parameters and a speed of 104 FPS on a single GTX 1080Ti card.
연구 동기 및 목표
- 실시간 애플리케이션에 적합한 빠르고 매개변수 수가 적은 의미 분할 모델을 개발한다.
- 로컬 정보와 맥락 정보를 포착하기 위해 depth-wise 비대칭 컨볼루션과 확장 합성곱(dilated convolution)을 결합한 bottleneck를 설계한다.
- 사전 학습이나 후처리 없이 Cityscapes 및 CamVid 데이터세트에서 DABNet을 평가한다.
- 매개변수 수가 적은 얕은 네트워크가 경쟁력 있는 정확도를 달성할 수 있음을 보여준다.
제안 방법
- 깊이 방향 비대칭 합성곱과 확장 합성곱을 결합한 Depth-wise Asymmetric Bottleneck (DAB) 모듈을 도입한다.
- 로컬 정보(3x3 깊이 방향 비대칭 컨볼루션)와 맥락 정보(깊이 방향 비대칭 확장 컨볼루션)를 분리 추출하기 위해 두 가지 분기 넥을 사용한다.
- 1x1 합성곱으로 분기를 병합하고 BatchNorm과 PReLU를 사용한 사전 활성화를 적용하되, 마지막 1x1 레이어 이후에 비선형성을 적용하지 않는다.
- 세 개의 다운샘플링 블록으로 DABNet 아키텍처를 구성하여 해상도 1/8의 특징 맵과 특징 재사용을 위한 장거리 숏컷을 생성한다.
- 속도를 보존하기 위해 디코더를 피하고 사전 학습이나 후처리 없이 엔드 투 엔드로 학습한다.
- DAB 블록 간의 확장 비율을 실험하여 수용 필드와 속도 사이의 균형을 맞춘다.
실험 결과
연구 질문
- RQ1깊이 방향 비대칭 병목(DAB)이 훨씬 적은 매개변수로 경쟁력 있는 의미 분할 정확도를 제공할 수 있는가?
- RQ2실시간 설정에서 깊이 방향 비대칭 및 확장 합성곱의 영향이 정확도와 추론 속도에 미치는 영향은 무엇인가?
- RQ3인코더만 있는 네트워크로 디코더 없이 Cityscapes/CamVid에서 최첨단 속도-정확도 트레이드를 달성할 수 있는가?
- RQ4확장 비율 및 맥락 모듈의 부재가 고해상도 분할 작업의 성능에 어떤 영향을 미치는가?
주요 결과
- DABNet은 Cityscapes 테스트에서 70.1% mIoU를 달성하고 매개변수 0.76M, GTX 1080Ti에서 27.7 FPS를 달성한다.
- 모델은 512x1024 입력에서 104 FPS로 실행되며 매개변수 수가 매우 작다(0.76M).
- 디코더나 무거운 맥락 모듈(SPP 등)은 정확도를 향상시키지 못하고 추론 속도를 상당히 느리게 하는 경우가 많다.
- 깊이 방향 합성곱의 확장 적용은 속도 이점을 유지시키고, 표준 합성곱에 확장을 적용하면 FPS가 눈에 띄게 감소한다.
- DABNet은 Cityscapes 및 CamVid 벤치마크에서 여러 실시간 방법 대비 매개변수가 크게 적으면서도 정확도 면에서 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.