[论文解读] End-to-end people detection in crowded scenes
本文提出了一种基于循环神经网络的端到端目标检测系统,通过使用LSTM解码器直接从图像中输出一组行人检测结果,无需后续处理(如非极大值抑制)。该方法在人群密集场景数据集上实现了81%的查全率和0.78的AP,通过一种新颖的可微分损失函数用于集合值预测,显著优于OverFeat-GoogLeNet。
Current people detectors operate either by scanning an image in a sliding window fashion or by classifying a discrete set of proposals. We propose a model that is based on decoding an image into a set of people detections. Our system takes an image as input and directly outputs a set of distinct detection hypotheses. Because we generate predictions jointly, common post-processing steps such as non-maximum suppression are unnecessary. We use a recurrent LSTM layer for sequence generation and train our model end-to-end with a new loss function that operates on sets of detections. We demonstrate the effectiveness of our approach on the challenging task of detecting people in crowded scenes.
研究动机与目标
- 解决在传统方法因检测结果重叠而失效的拥挤场景中,检测多个部分遮挡行人所面临的挑战。
- 通过在序列中联合生成检测结果,消除对非极大值抑制等后处理步骤的依赖。
- 开发一种可训练的端到端系统,联合优化特征提取、检测和置信度预测。
- 设计一种适用于可变长度和重叠实例的检测集合的可微分损失函数。
- 展示该方法在高密度物体和遮挡情况下的复杂真实世界场景中的泛化能力。
提出的方法
- 模型使用通过端到端微调的GoogLeNet特征作为检测任务的输入表示。
- 一个循环LSTM层将图像表示解码为可变长度的边界框预测序列。
- 每个LSTM步骤生成一个包含类别、位置和置信度分数的检测假设。
- 一种新颖的可微分损失函数L_set通过考虑重叠和定位误差的可微分匹配函数,将预测检测与真实值匹配。
- 损失函数支持通过整个序列的反向传播,从而实现特征提取和检测组件的联合训练。
- 系统通过LSTM隐藏状态关注先前生成的输出,避免冗余检测。
实验结果
研究问题
- RQ1能否有效利用循环神经网络直接从图像生成可变长度的对象检测序列,而无需后处理?
- RQ2如何设计一种可微分损失函数,以训练适用于可变大小和重叠实例的检测集合的模型?
- RQ3与两阶段方法相比,序列生成检测器的端到端训练是否能提升在拥挤场景下的性能?
- RQ4模型是否能学习为检测结果分配适当的置信度分数,而无需依赖启发式后处理?
- RQ5在拥挤场景下,该模型在查全率和平均精度(mAP)方面相较于OverFeat和R-CNN等现有检测器的性能提升程度如何?
主要发现
- 所提模型在人群密集场景数据集上实现了81%的查全率,显著优于OverFeat-GoogLeNet的71%查全率。
- 模型达到0.78的平均精度(AP),显著优于OverFeat-GoogLeNet的0.67 AP。
- 人员计数误差从OverFeat-GoogLeNet的1.05降低至0.76,表明在估计物体数量方面具有更高的准确性。
- L_fix损失(强制固定空间排序)表现较差,表明灵活的、基于学习的排序对性能至关重要。
- L_firstk损失(将前k个预测与真实值匹配)表现优于L_fix,但未能学习到有意义的置信度分数,凸显了损失函数中对重叠情况的感知能力的必要性。
- 如图3中绿色箭头所示,该模型在强遮挡情况下仍能成功检测行人,而OverFeat在人群密集区域未能检测到个体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。