QUICK REVIEW

[论文解读] View Independent Vehicle Make, Model and Color Recognition Using Convolutional Neural Network

Afshin Dehghan, Syed Zain Masood|arXiv (Cornell University)|Feb 6, 2017

Advanced Neural Network Applications参考文献 12被引用 23

一句话总结

本文提出了一种基于大规模图像数据集（超过300万张图像）训练的深度卷积神经网络的视图无关车辆品牌、型号和颜色识别系统。该系统在Stanford Cars和compCar等基准数据集上实现了最先进性能，top-1准确率分别为93.6%和95.88%，同时通过半自动数据处理流程和鲁棒的图像对齐技术，实现了150 fps的实时推理。

ABSTRACT

This paper describes the details of Sighthound's fully automated vehicle make, model and color recognition system. The backbone of our system is a deep convolutional neural network that is not only computationally inexpensive, but also provides state-of-the-art results on several competitive benchmarks. Additionally, our deep network is trained on a large dataset of several million images which are labeled through a semi-automated process. Finally we test our system on several public datasets as well as our own internal test dataset. Our results show that we outperform other methods on all benchmarks by significant margins. Our model is available to developers through the Sighthound Cloud API at https://www.sighthound.com/products/cloud

研究动机与目标

开发一种完全自动化的、视图无关的细粒度车辆品牌、型号和颜色识别系统。
利用深度学习解决车辆类别间细微视觉差异（例如，宝马3系与5系）的挑战。
克服现有方法因数据集规模小或计算成本过高而导致的局限性。
创建一个大规模、高质量的数据集，采用半自动标注流程进行训练。
为执法、监控和交通监控应用提供实时、高精度的车辆识别能力。

提出的方法

该系统采用三阶段流程：数据收集、数据预处理和深度学习训练。
从多样化来源收集了超过500万张图像，并通过包含人工介入验证的半自动流程进行过滤。
使用Sighthound的云API进行车辆检测，以实现车辆定位与对齐，减少背景干扰。
在边界框周围应用10%的扩展区域，以应对检测不准确的情况。
针对颜色识别，应用椭圆掩码以隔离车体区域，最大限度减少背景影响。
训练了两个独立的深度神经网络：一个用于品牌/型号分类，另一个用于颜色分类，分别优化了高准确率和低推理成本。

实验结果

研究问题

RQ1在大规模、半自动标注的数据集上训练的深度卷积神经网络，是否能在视图无关的车辆品牌、型号和颜色识别任务中实现最先进性能？
RQ2与现有方法相比，该系统在Stanford Cars和compCar等公开基准数据集上的表现如何？
RQ3数据对齐与背景抑制在不同视角和条件下在多大程度上提升了识别准确率？
RQ4该模型是否能在保持高准确率的同时实现实时推理（例如150 fps）？
RQ5在公开数据集上进行微调后，性能表现如何，特别是在原始训练数据中不包含生产年份等时间变化因素的情况下？

主要发现

在Stanford Cars数据集上，系统实现了93.6%的top-1准确率，优于先前方法如Krause等人（92.8%）和Lin等人（91.3%）。
在compCar数据集上，模型实现了95.88%的top-1准确率和99.53%的top-5准确率，较GoogLeNet（91.2% top-1）高出4.68个百分点。
即使未进行微调，模型在compCar验证基准的易、中、难三组测试集上分别实现了92.03%、86.52%和80.17%的验证准确率。
该模型在多样化的真实场景中表现出强鲁棒性，包括高角度监控图像和个人拍摄的照片。
系统在批量处理模式下实现了150 fps的实时推理，表明其在保持高准确率的同时具备出色的计算效率。
采用半自动标注流程，成功构建了包含超过300万张标注图像的大规模数据集，其中部分图像包含颜色标注。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。