[论文解读] RESA: Recurrent Feature-Shift Aggregator for Lane Detection
本文提出RESA,一种循环特征偏移聚合模块,通过在垂直和水平方向上迭代地偏移并聚合特征图,以捕捉长距离空间依赖关系,从而提升车道检测性能。该方法在CULane数据集上实现了75.3的F1分数,在Tusimple数据集上达到96.8%的准确率,通过有效建模车道形状先验,并实现高效、并行的特征传播,取得了最先进性能。
Lane detection is one of the most important tasks in self-driving. Due to various complex scenarios (e.g., severe occlusion, ambiguous lanes, etc.) and the sparse supervisory signals inherent in lane annotations, lane detection task is still challenging. Thus, it is difficult for the ordinary convolutional neural network (CNN) to train in general scenes to catch subtle lane feature from the raw image. In this paper, we present a novel module named REcurrent Feature-Shift Aggregator (RESA) to enrich lane feature after preliminary feature extraction with an ordinary CNN. RESA takes advantage of strong shape priors of lanes and captures spatial relationships of pixels across rows and columns. It shifts sliced feature map recurrently in vertical and horizontal directions and enables each pixel to gather global information. RESA can conjecture lanes accurately in challenging scenarios with weak appearance clues by aggregating sliced feature map. Moreover, we propose a Bilateral Up-Sampling Decoder that combines coarse-grained and fine-detailed features in the up-sampling stage. It can recover the low-resolution feature map into pixel-wise prediction meticulously. Our method achieves state-of-the-art results on two popular lane detection benchmarks (CULane and Tusimple). Code has been made available at: https://github.com/ZJULearning/resa.
研究动机与目标
- 解决在严重遮挡、标记模糊和弱监督条件下检测车道的挑战。
- 克服标准CNN在稀疏标注和细长车道结构下难以捕捉长距离空间关系及细微车道特征的局限。
- 设计一种高效、并行的机制,实现在不显著增加计算成本的前提下,跨特征图聚合空间上下文信息。
- 通过融合粗粒度与细粒度特征,提升上采样过程中的特征恢复能力,实现精确的像素级车道预测。
- 为未来车道检测研究建立一个高性能、模块化的强基准模型,兼具高精度与高效率。
提出的方法
- 提出RESA,一种循环特征偏移聚合模块,通过在多轮迭代中对特征图进行切片并在垂直与水平方向上偏移,实现全局特征聚合。
- 通过在不同步长下对偏移后的特征图进行逐元素相加(或最大池化)实现特征聚合,以保留长距离信息并减少传播过程中的信息损失。
- 将RESA作为即插即用模块集成在标准CNN主干网络之后,无需对网络架构进行大规模修改即可增强特征表示能力。
- 设计双分支上采样解码器(BUSD),其中一条分支采用双线性插值处理粗粒度特征,另一条分支采用转置卷积与非瓶颈模块以捕捉细节信息。
- 融合BUSD双分支的输出,重建高分辨率、精确的车道预测结果,显著提升预测结果的连续性与平滑性。
- 使用标准像素级二元交叉熵损失结合焦点损失进行端到端训练,以缓解稀疏车道标注带来的类别不平衡问题。
实验结果
研究问题
- RQ1在遮挡或标记模糊的场景中,跨行与列的循环特征偏移是否能有效提升车道检测的特征表示能力?
- RQ2RESA中迭代次数与步长选择如何影响模型性能与计算效率?
- RQ3并行特征聚合机制是否能在准确率与速度两方面均优于SCNN等顺序消息传递方法?
- RQ4在上采样过程中融合粗粒度与细粒度特征,能在多大程度上提升像素级车道预测的准确性?
- RQ5所提方法在真实驾驶条件下,是否能在CULane与Tusimple等多样化基准上实现良好泛化性能?
主要发现
- 在采用ResNet-34主干网络的CULane基准上,RESA取得了75.3的F1分数,创下新的最先进结果。
- 在Tusimple基准上,该方法实现了96.8%的准确率,在多种真实世界条件下均优于现有方法。
- 将RESA迭代次数从1次增加到4次,F1分数由73.2提升至74.5,且超过4次后收益递减。
- RESA的推理速度约为SCNN的10倍(11×11卷积核下分别为4.4ms与44.6ms),展现出显著的计算效率优势。
- 在特征聚合中将逐元素相加替换为最大池化,性能基本保持不变(F1为74.4 vs. 74.5),表明方法对聚合策略具有鲁棒性。
- 双分支上采样解码器(BUSD)通过同时保留全局结构与局部细节,显著提升了预测质量,该结论得到定性和定量结果的共同验证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。