Skip to main content
QUICK REVIEW

[论文解读] Max-Margin Object Detection

Davis E. King|arXiv (Cornell University)|Jan 31, 2015
Advanced Image and Video Retrieval Techniques参考文献 18被引用 81
一句话总结

本文提出了最大边缘目标检测(MMOD),一种凸优化框架,通过直接优化图像中所有可能的滑动窗口位置来训练目标检测器,而非采用子采样。该方法实现了最先进性能,尤其在FDDB数据集上,仅使用一个通过MMOD训练的刚性HOG滤波器,就超越了复杂的可变形部件模型。

ABSTRACT

Most object detection methods operate by applying a binary classifier to sub-windows of an image, followed by a non-maximum suppression step where detections on overlapping sub-windows are removed. Since the number of possible sub-windows in even moderately sized image datasets is extremely large, the classifier is typically learned from only a subset of the windows. This avoids the computational difficulty of dealing with the entire set of sub-windows, however, as we will show in this paper, it leads to sub-optimal detector performance. In particular, the main contribution of this paper is the introduction of a new method, Max-Margin Object Detection (MMOD), for learning to detect objects in images. This method does not perform any sub-sampling, but instead optimizes over all sub-windows. MMOD can be used to improve any object detection method which is linear in the learned parameters, such as HOG or bag-of-visual-word models. Using this approach we show substantial performance gains on three publicly available datasets. Strikingly, we show that a single rigid HOG filter can outperform a state-of-the-art deformable part model on the Face Detection Data Set and Benchmark when the HOG filter is learned via MMOD.

研究动机与目标

  • 解决传统目标检测方法因计算限制仅在部分图像窗口上进行训练所导致的次优性能问题。
  • 直接优化整个检测系统的准确率——最小化误报和漏检——而非依赖于从采样窗口的二分类器中获得的代理指标。
  • 开发一种凸优化框架,能够高效处理图像中所有可能的滑动窗口位置,包括部分重叠的窗口。
  • 证明全数据优化可带来显著性能提升,即使使用HOG等简单特征集亦然。

提出的方法

  • MMOD将目标检测建模为结构化预测问题,其中评分函数 f(x,r) 在参数 w 和特征 φ(x,r) 上为线性关系。
  • 其损失函数基于非极大值抑制后的输出,采用基于边距的方法惩罚误报和漏检。
  • 该方法采用结构化SVM公式,使用合页损失函数,考虑非极大值抑制后的最终检测器输出,而不仅是个别窗口的预测结果。
  • 它提出一个凸优化问题,联合优化所有窗口(包括部分重叠目标的窗口)的检测器参数。
  • 该算法采用切平面法高效求解对偶优化问题,实现在不进行子采样的情况下对所有窗口进行训练。
  • 该框架具有通用性,可通过插入适当的特征提取器,适用于任意线性检测器,如HOG或词袋视觉词。

实验结果

研究问题

  • RQ1在所有可能的图像窗口上进行训练(而非子集)是否能获得优于标准方法的性能?
  • RQ2优化最终检测器输出(非极大值抑制后)是否能带来相比优化单个窗口分类的更高准确率?
  • RQ3当使用MMOD训练时,一个简单的刚性HOG滤波器是否能超越复杂的可变形部件模型?
  • RQ4MMOD如何处理与目标部分重叠的窗口?这类窗口在标准训练中通常被丢弃。

主要发现

  • MMOD在三个公开数据集(INRIA、TU Darmstadt奶牛数据集、FDDB)上显著提升了检测准确率,即使使用HOG等基础特征集亦然。
  • 在FDDB基准测试中,仅使用一个通过MMOD训练的刚性HOG滤波器,其检测准确率即超越了最先进的可变形部件模型。
  • 该方法通过在训练中利用全部3亿个可能的滑动窗口位置,实现在FDDB上的卓越性能,而标准方法无法高效处理这些窗口。
  • 受试者工作特征曲线显示,MMOD训练的HOG滤波器显著优于传统的SVM硬负样本挖掘方法以及Viola-Jones方法。
  • 如图5所示,MMOD学习得到的HOG滤波器在检测精度上优于传统方法训练的同一滤波器,图6中的检测示例也验证了这一点。
  • 该方法计算上是可行的,FDDB数据集每折训练时间约为25分钟,并已作为dlib工具箱的一部分开源。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。