[论文解读] BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
BiSeNet 引入双路径架构(Spatial Path 和 Context Path),配备 Feature Fusion Module 和 Attention Refinement Module,以实现实时语义分割并保持高精度。它在 Cityscapes 测试集上以 Titan XP 的 105 FPS 速度达到 68.4% Mean IOU。
Semantic segmentation requires both rich spatial information and sizeable receptive field. However, modern approaches usually compromise spatial resolution to achieve real-time inference speed, which leads to poor performance. In this paper, we address this dilemma with a novel Bilateral Segmentation Network (BiSeNet). We first design a Spatial Path with a small stride to preserve the spatial information and generate high-resolution features. Meanwhile, a Context Path with a fast downsampling strategy is employed to obtain sufficient receptive field. On top of the two paths, we introduce a new Feature Fusion Module to combine features efficiently. The proposed architecture makes a right balance between the speed and segmentation performance on Cityscapes, CamVid, and COCO-Stuff datasets. Specifically, for a 2048x1024 input, we achieve 68.4% Mean IOU on the Cityscapes test dataset with speed of 105 FPS on one NVIDIA Titan XP card, which is significantly faster than the existing methods with comparable performance.
研究动机与目标
- 促使在不牺牲空间细节或感受野的情况下实现实时语义分割。
- 提出 Bilateral Segmentation Network (BiSeNet),包含 Spatial Path 与 Context Path,以保留空间细节并扩大感受野。
- 开发模块(Feature Fusion Module 和 Attention Refinement Module),以高效地融合与精炼特征。
- 在 Cityscapes、CamVid 和 COCO-Stuff 上评估 BiSeNet,以展示速度-精度的平衡。
- 提供消融研究,理解各组件对性能的影响。
提出的方法
- 引入 Spatial Path(三次 2-stride 卷积)以保留高分辨率的空间信息(1/8 尺度)。
- 引入 Context Path,使用轻量骨干网络(Xception39),通过对最后两个阶段的 U 形融合提供较大的感受野。
- 在 Context Path 尾部增加 Global Average Pooling 分支,以全局上下文扩展感受野。
- 提出 Feature Fusion Module (FFM),将 SP 与 CP 特征拼接后,应用 BatchNorm、全局池化,以及类似 SENet 的门控来重新加权特征。
- 提出 Attention Refinement Module (ARM),利用全局上下文计算注意力向量以在不进行上采样的情况下精炼 CP 特征。
- 用联合损失进行训练:对最终输出的主损失加上对 CP 各阶段的辅助损失,平衡参数 alpha = 1。
- 对 CP 输出采用辅助深监督方案以引导训练。
实验结果
研究问题
- RQ1双路径架构(在保留空间细节的同时提供较大感受野)是否能在不显著损失精度的情况下实现实时语义分割?
- RQ2相较于标准单路径或 U 形设计,专门的融合和细化模块(FFM 和 ARM)是否改善速度-精度权衡?
- RQ3全局平均池化和辅助损失对 BiSeNet 在标准基准数据集上的最终表现有何贡献?
主要发现
- BiSeNet 在 Cityscapes 上实现强劲的实时性能,在测试集上以高 FPS(在 Titan XP 的 2048x1024 输入下报告为 105 FPS)达到 68.42% 的 Mean IOU。
- Spatial Path 单独相比基线 CP-only 提高了大约 1.4 个百分点的 Mean IOU。
- CP+SP 结合 FFM 与 GP(全局池化)在 Cityscapes 验证集上分别达到 68.42% 与 71.40%,展现了模块加入的渐进性提升。
- 在 CP 尾部嵌入全局平均池化带来显著提升(67.42% 提升至 68.42%)。
- BiSeNet 在 CamVid 与 COCO-Stuff 上显示出具有竞争力的结果,突显该方法在不同数据集上的泛化能力。
- 该方法在 Cityscapes 上保持显著高于许多先前方法的速度,同时具有可比的精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。