QUICK REVIEW

[论文解读] DenseBox: Unifying Landmark Localization with End to End Object Detection

Lichao Huang, Yi Yang|arXiv (Cornell University)|Sep 16, 2015

Advanced Neural Network Applications参考文献 42被引用 454

一句话总结

DenseBox 提出了一种统一的、端到端的全卷积神经网络（FCN），用于目标检测，可直接在所有图像位置和尺度上预测边界框和类别置信度。通过引入多任务学习进行关键点定位，它在 MALF（人脸检测）和 KITTI（汽车检测）等具有挑战性的基准上实现了最先进性能，MALF 上的平均召回率达到 87.26%，KITTI 的中等难度集上平均精确度达到 85.74%。

ABSTRACT

How can a single fully convolutional neural network (FCN) perform on object detection? We introduce DenseBox, a unified end-to-end FCN framework that directly predicts bounding boxes and object class confidences through all locations and scales of an image. Our contribution is two-fold. First, we show that a single FCN, if designed and optimized carefully, can detect multiple different objects extremely accurately and efficiently. Second, we show that when incorporating with landmark localization during multi-task learning, DenseBox further improves object detection accuray. We present experimental results on public benchmark datasets including MALF face detection and KITTI car detection, that indicate our DenseBox is the state-of-the-art system for detecting challenging objects such as faces and cars.

研究动机与目标

开发一种单一的全卷积神经网络，实现无需区域建议生成的端到端目标检测。
提升对小尺寸及严重遮挡目标（如人脸和远距离汽车）的检测准确率。
探究通过多任务学习联合学习关键点定位是否能提升目标检测性能。
展示精心设计的网络结构与困难负样本挖掘在实现复杂基准上高精度的有效性。

提出的方法

设计一种全卷积神经网络（FCN），在单次前向传播中对每个空间位置和尺度预测目标边界框和类别置信度。
采用端到端训练并结合精心设计的困难负样本挖掘，以提升对小尺寸和遮挡目标的检测能力。
将关键点定位作为多任务头，与检测头共享特征，以改善特征学习。
在 KITTI 数据集的 27% 汽车上标注 8 个关键点，以支持与检测任务的联合训练。
使用 IOU 阈值为 0.75 的非极大值抑制进行后处理，以适配 KITTI 严格的 70% 重叠标准。
集成多个在不同批次迭代上训练的 DenseBox 模型，进一步提升性能。

实验结果

研究问题

RQ1单一全卷积网络是否能在无需区域建议生成的情况下实现端到端目标检测的最先进性能？
RQ2通过多任务学习引入关键点定位，对小尺寸或遮挡目标的检测准确率有何影响？
RQ3困难负样本挖掘在多大程度上提升了对小尺度和严重遮挡目标的检测性能？
RQ4在具有挑战性目标尺度和外观的基准上，DenseBox 与基于 R-CNN 和两阶段检测器的性能相比如何？
RQ5在真实世界数据集（如 KITTI）中，仅 27% 的关键点标注对检测性能有何影响？

主要发现

在 MALF 人脸检测基准上，DenseBox 达到 87.26% 的平均召回率，比 DDFD 提高约 10%。
在 KITTI 汽车检测基准上，DenseBox 在中等难度集上达到 85.74% 的平均精确度，优于传统方法如 Regionlets 和 spCov_LBP。
尽管仅 27% 的汽车被标注关键点，关键点定位的引入仍使 KITTI 数据集上的平均精确度提升了 0.9%。
DenseBox 在 KITTI 中等难度集上的表现优于基于 R-CNN 的 DeepInsight（使用 ImageNet 预训练的 GoogLeNet），平均精确度达到 85.74% 对比 84.40%。
对 10 个在不同批次迭代上训练的 DenseBox 变体进行模型集成，进一步提升了性能，表明其预测具有高度多样性与鲁棒性。
该方法在复杂场景中对小尺寸和遮挡目标表现出强大的泛化能力，尽管仍偶尔出现漏检或误检。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。