QUICK REVIEW

[论文解读] Spatial As Deep: Spatial CNN for Traffic Scene Understanding

Xingang Pan, Zhan, Xiaohang|arXiv (Cornell University)|Dec 17, 2017

Autonomous Vehicle Technology and Safety被引用 230

一句话总结

本文提出 Spatial CNN (SCNN)，一种逐层在特征图内沿行列传播信息的空间信息传播方法，以更好地捕捉像交通车道和杆子等长形结构，从而在传统CNN和基于RNN/CRF的方法上提升车道检测和语义分割性能。

ABSTRACT

Convolutional neural networks (CNNs) are usually built by stacking convolutional operations layer-by-layer. Although CNN has shown strong capability to extract semantics from raw pixels, its capacity to capture spatial relationships of pixels across rows and columns of an image is not fully explored. These relationships are important to learn semantic objects with strong shape priors but weak appearance coherences, such as traffic lanes, which are often occluded or not even painted on the road surface as shown in Fig. 1 (a). In this paper, we propose Spatial CNN (SCNN), which generalizes traditional deep layer-by-layer convolutions to slice-byslice convolutions within feature maps, thus enabling message passings between pixels across rows and columns in a layer. Such SCNN is particular suitable for long continuous shape structure or large objects, with strong spatial relationship but less appearance clues, such as traffic lanes, poles, and wall. We apply SCNN on a newly released very challenging traffic lane detection dataset and Cityscapse dataset. The results show that SCNN could learn the spatial relationship for structure output and significantly improves the performance. We show that SCNN outperforms the recurrent neural network (RNN) based ReNet and MRF+CNN (MRFNet) in the lane detection dataset by 8.7% and 4.6% respectively. Moreover, our SCNN won the 1st place on the TuSimple Benchmark Lane Detection Challenge, with an accuracy of 96.53%.

研究动机与目标

在交通场景中，当长而连续的结构具有强烈的形状先验但外观线索较弱时，推动改进空间关系建模。
提出一种面向空间的 CNN 扩展，使其能够在特征图内逐切片进行信息传递。
展示 SCNN 在具有挑战性的交通数据集上相较于 CNN、ReNet、MRF/CRF 基线以及深层残差网络，在车道检测和语义分割方面的改进。

提出的方法

将深度 CNN 泛化为在特征图内执行逐切片卷积，从而实现方向性、顺序的空间信息传递。
定义 SCNN 的前向计算，使用跨切片共享核权重的逐切片卷积，并在层之间传播残差信息（论文中给出方程）。
在骨干网络的顶层隐藏层之后加入四个方向的 SCNN 模块（Down、Up、Right、Left）。
在 Lane Detection 和 Cityscapes 语义分割任务上，使用修改后的 LargeFOV/ResNet 骨干网，端到端用 SGD 训练。
通过概率图（probmaps）评估车道存在性，然后从高响应行使用三次样条线重构车道。
将 SCNN 与 ReNet、DenseCRF、MRFNet 以及 ResNet 基线进行比较，并展示相对于密集 MRF/CRF 的效率优势。

实验结果

研究问题

RQ1Spatial CNN 是否能够有效地沿行和列传播空间信息，以在遮挡或呈现较弱的车道标记及结构化对象时进行恢复？
RQ2SCNN 是否能在车道检测和城市场景语义分割方面超过基于 RNN、MRF/CRF 的基线以及更深的 CNN？
RQ3将 SCNN 应用于顶层隐藏层是否比应用于输出层对交通场景中的结构化对象更有利？
RQ4卷积核宽度、方向配置以及顺序与并行信息传递对 SCNN 性能的影响是什么？

主要发现

带有多方向传播的 SCNN 在各 IoU 阈值下，相较于基线、ReNet 和 MRFNet，显著提升车道检测的 F1 得分。
较大的 SCNN 核宽（最大到 w=9）可获得更高的 F1，在 IoU 阈值 0.3 和 0.5 时相对于基线有显著提升。
将 SCNN 应用于顶层隐藏层的结果优于应用于输出层。
SCNN 的顺序（而非并行）信息传递带来显著的精度提升，表明跨多个步骤的信息扩散有助于结构估计。
装配 SCNN 的模型在车道检测指标上超过 DenseCRF、ReNet，在多数情况下也超过 ResNet-50/101 基线；在 Cityscapes 上，将 SCNN 加入 LargeFOV 或 ResNet-101 骨干后，提升了若干类别和整体 mIoU。
SCNN 在计算效率上优于密集 CRF 和 LSTM 基线，同时实现对长而细的结构和大对象有益的信息扩散效果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。