[论文解读] DABNet: Depth-wise Asymmetric Bottleneck for Real-time Semantic Segmentation
DABNet 引入 Depth-wise Asymmetric Bottleneck 模块,并构建一个轻量级网络,实现实时语义分割,具有高精度和极低参数量,例如在 Cityscapes 测试集上 70.1% mIoU,参数量 0.76M,GTX 1080Ti 上 27.7 FPS。
As a pixel-level prediction task, semantic segmentation needs large computational cost with enormous parameters to obtain high performance. Recently, due to the increasing demand for autonomous systems and robots, it is significant to make a tradeoff between accuracy and inference speed. In this paper, we propose a novel Depthwise Asymmetric Bottleneck (DAB) module to address this dilemma, which efficiently adopts depth-wise asymmetric convolution and dilated convolution to build a bottleneck structure. Based on the DAB module, we design a Depth-wise Asymmetric Bottleneck Network (DABNet) especially for real-time semantic segmentation, which creates sufficient receptive field and densely utilizes the contextual information. Experiments on Cityscapes and CamVid datasets demonstrate that the proposed DABNet achieves a balance between speed and precision. Specifically, without any pretrained model and postprocessing, it achieves 70.1% Mean IoU on the Cityscapes test dataset with only 0.76 million parameters and a speed of 104 FPS on a single GTX 1080Ti card.
研究动机与目标
- 开发一个适用于实时应用的快速、低参数的语义分割模型。
- 设计一个结合深度卷积不对称与扩张卷积的瓶颈,以捕获局部与上下文信息。
- 在 Cityscapes 和 CamVid 数据集上评估 DABNet,且不进行预训练或后处理。
- 展示一个参数量小的浅层网络也能实现具有竞争力的准确性的证据。
提出的方法
- 引入深度方向不对称瓶颈(DAB)模块,结合深度卷积不对称与扩张卷积。
- 使用双分支颈部分别提取局部信息(3x3 深度方向不对称卷积)和上下文信息(深度方向不对称扩张卷积)。
- 用 1x1 卷积融合分支,并应用带有 BatchNorm 和 PReLU 的预激活,在最后的 1x1 层后没有非线性激活。
- 将 DABNet 架构组装为三个下采样块,以产生 1/8 分辨率的特征图,并设置长距离捷径以实现特征复用。
- 避免解码器以提升速度,端到端训练,无预训练或后处理。
- 在 DAB 块中尝试不同的扩张率,以在感受野和速度之间取得平衡。
实验结果
研究问题
- RQ1深度方向不对称瓶颈(DAB)是否能在显著减少参数的情况下提供具有竞争力的语义分割精度?
- RQ2在实时场景中,深度方向不对称与扩张卷积对准确性和推理速度有何影响?
- RQ3仅编码器的网络没有解码器,是否足以在 Cityscapes/CamVid 上实现最先进的速度-准确度权衡?
- RQ4扩张率和缺乏上下文模块对高分辨率分割任务的性能有何影响?
主要发现
- DABNet 在 Cityscapes 测试集上以 0.76M 参数和 27.7 FPS 达到 70.1% mIoU。
- 该模型在 512x1024 输入下达到 104 FPS,同时保持非常小的参数量(0.76M)。
- 解码器或重量级上下文模块(如 SPP)不会提升准确性,反而会显著降低推理速度。
- 在深度卷积中的扩张卷积保留了速度优势,而在标准卷积上施加扩张显著降低 FPS。
- DABNet 在 Cityscapes 和 CamVid 基准测试中,准确性优于若干实时方法,同时参数显著更少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。