[논문 리뷰] Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes
DDRNet은 양방향 융합과 이중 해상도 깊은 가지, 그리고 Deep Aggregation Pyramid Pooling Module을 도입하여 도로 씬의 고정밀 실시간 의미 분할을 달성하며 Cityscapes와 CamVid에서 새로운 속도-정확도 트레이드오프를 제시한다.
Semantic segmentation is a key technology for autonomous vehicles to understand the surrounding scenes. The appealing performances of contemporary models usually come at the expense of heavy computations and lengthy inference time, which is intolerable for self-driving. Using light-weight architectures (encoder-decoder or two-pathway) or reasoning on low-resolution images, recent methods realize very fast scene parsing, even running at more than 100 FPS on a single 1080Ti GPU. However, there is still a significant gap in performance between these real-time methods and the models based on dilation backbones. To tackle this problem, we proposed a family of efficient backbones specially designed for real-time semantic segmentation. The proposed deep dual-resolution networks (DDRNets) are composed of two deep branches between which multiple bilateral fusions are performed. Additionally, we design a new contextual information extractor named Deep Aggregation Pyramid Pooling Module (DAPPM) to enlarge effective receptive fields and fuse multi-scale context based on low-resolution feature maps. Our method achieves a new state-of-the-art trade-off between accuracy and speed on both Cityscapes and CamVid dataset. In particular, on a single 2080Ti GPU, DDRNet-23-slim yields 77.4% mIoU at 102 FPS on Cityscapes test set and 74.7% mIoU at 230 FPS on CamVid test set. With widely used test augmentation, our method is superior to most state-of-the-art models and requires much less computation. Codes and trained models are available online.
연구 동기 및 목표
- autonomous driving에서 높은 정확도로 실시간 의미 분할의 필요성을 자극한다.
- 고해상도 표현과 의미 맥락을 균형 있게 제공하는 효율적인 백본을 개발한다.
- 이중 해상도 융합 수준이 속도와 정확도에 미치는 영향을 분리 분석한다.
- 낮은 해상도 특징을 무거운 비용 없이 향상시키는 경량의 맥락-rich 모듈(DAPPM)을 도입한다.
제안 방법
- 두 개의 서로 다른 해상도에서 깊은 가지를 갖는 DDRNet 패밀리를 설계한다.
- 여러 단계에서 고해상도 가지와 저해상도 가지 간의 양방향 융합을 구현한다.
- 저해상도 맵에서 다중 규모 맥락을 포착하는 Deep Aggregation Pyramid Pooling Module (DAPPM)을 제안한다.
- 계산 비용을 제어하기 위해 출력 채널 수를 조정 가능한 간단한 세분화 헤드를 사용한다.
- 최적화를 안정시키기 위해 학습 중 깊은 감독을 적용한다.
- ImageNet에서 사전 학습 후 세그먼트 데이터 세트에서 미세 조정한다.
실험 결과
연구 질문
- RQ1이중 해상도 네트워크와 양방향 융합이 단일 해상도 또는 확장된 백본 방법보다 더 높은 실시간 세분화 정확도를 달성할 수 있는가?
- RQ2Deep Aggregation Pyramid Pooling Module이 저해상도 특징에서 더 풍부한 다중 스케일 맥락을 제공하고 속도에 거의 영향을 주지 않는가?
- RQ3도로 씬 세분화에 대한 네트워크 깊이/너비와 추론 속도 사이의 최적 트레이드오프는 무엇인가?
- RQ4Cityscapes, CamVid, COCOStuff에서 DDRNet의 성능이 최신 실시간 모델과 비교해 어떠한가?
주요 결과
| 모델 | Cityscapes 테스트 MIoU | 속도(FPS) | GPU | 입력 해상도 | GFLOPs | 매개변수 (M) |
|---|---|---|---|---|---|---|
| DDRNet-23-slim | 77.4 | 102 | GTX 2080Ti | 2048x1024 | 36.3 | 5.7 |
| DDRNet-23 | 79.4 | 37 | GTX 2080Ti | 2048x1024 | 143.1 | 20.1 |
| DDRNet-39 | 80.4 | 22 | GTX 2080Ti | 2048x1024 | 281.2 | 32.3 |
- DDRNet-23-slim은 Cityscapes 테스트 세트에서 102 FPS에서 77.4% mIoU를 달성한다.
- DDRNet-23은 Cityscapes 테스트에서 37 FPS로 79.4% mIoU를 달성한다.
- DDRNet-39는 Cityscapes 테스트에서 22 FPS로 80.4% mIoU를 달성한다.
- CamVid에서 DDRNet-23-slim은 Cityscapes 사전학습 없이 230 FPS에서 74.7% mIoU를 달성한다.
- COCOStuff에서 DDRNet-23과 DDRNet-39는 각각 높은 속도에서 32.1 및 34.8 mIoU를 달성한다.
- Cityscapes 사전학습 및 TensorRT 가속을 통해 DDRNet-23은 Cityscapes에서 94 FPS로 80.6% mIoU를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.