QUICK REVIEW

[论文解读] DeepLogo: Hitting Logo Recognition with the Deep Neural Network Hammer

Forrest Iandola, Anting Shen|arXiv (Cornell University)|Oct 7, 2015

Advanced Image and Video Retrieval Techniques参考文献 14被引用 60

一句话总结

本文提出了 DeepLogo，一种深度学习框架，通过应用深度卷积神经网络（DCNNs）实现 logo 识别，在 FlickrLogos-32 数据集上达到最先进性能。通过采用定制化的 DCNN 架构和 Fast R-CNN 框架进行检测，作者在分类、无定位检测（73.3% mAP）和有定位检测（使用 VGG16 时为 74.4% mAP）方面均超越了先前方法。

ABSTRACT

Recently, there has been a flurry of industrial activity around logo recognition, such as Ditto's service for marketers to track their brands in user-generated images, and LogoGrab's mobile app platform for logo recognition. However, relatively little academic or open-source logo recognition progress has been made in the last four years. Meanwhile, deep convolutional neural networks (DCNNs) have revolutionized a broad range of object recognition applications. In this work, we apply DCNNs to logo recognition. We propose several DCNN architectures, with which we surpass published state-of-art accuracy on a popular logo recognition dataset.

研究动机与目标

为解决尽管工业需求不断增长，但学术界在 logo 识别领域进展有限的问题。
利用已彻底革新物体识别的深度卷积神经网络（DCNNs）提升 logo 识别准确率。
在 FlickrLogos-32 数据集上建立 logo 分类、无定位检测和有定位检测的全新最先进结果。
为未来的 logo 识别研究和应用提供一个稳健的、基于深度学习的基准。
展示 DCNN 在多种问题设定下处理 logo 识别任务的有效性。

提出的方法

提出专为 logo 识别定制的 DCNN 架构，利用 ImageNet 预训练模型进行迁移学习。
采用 Fast R-CNN（FRCN）进行带定位的物体检测，区域建议通过选择性搜索生成。
修改 FRCN 使其在每张图像中仅使用一个区域建议（覆盖整张图像）以实现无定位检测。
使用多任务损失联合优化分类和边界框回归，以实现定位。
使用 FlickrLogos-32 数据集进行训练和评估，结合数据增强和标准预处理。
通过 mAP 和多类 logo 的精确率-召回率曲线评估性能。

实验结果

研究问题

RQ1与传统的基于 SIFT 的方法相比，深度卷积神经网络是否能在 logo 识别任务上实现更优性能？
RQ2DCNN 在不同 logo 识别任务（分类、无定位检测、有定位检测）中的表现如何变化？
RQ3不同主干网络（如 AlexNet 与 VGG16）对 logo 识别中检测准确率的影响是什么？
RQ4统一的深度学习框架能否在多种 logo 识别问题表述下保持一致的高性能？
RQ5在 FlickrLogos-32 数据集上，使用深度学习进行有定位检测的基线性能如何？

主要发现

所提出的基于 DCNN 的方法在使用 Fast R-CNN 和 AlexNet 的情况下，实现了 73.3% mAP 的无定位检测性能。
在有定位检测任务中，采用 VGG16 主干网络的方法达到了 74.4% mAP，优于基于 AlexNet 的变体（73.5% mAP）。
该模型在星巴克、百事和苹果等显著 logo 上表现优异，多个类别的 AP 分数超过 80%。
本研究首次在 FlickrLogos-32 数据集上建立了基于深度学习的有定位检测基准，此前该数据集缺乏此类基准。
结果表明，DCNN 显著优于以往的 SIFT 基方法，尤其在处理尺度变化、光照变化和背景杂乱等情形下表现更优。
该框架能够同时实现 logo 的定位与分类，凸显了端到端深度学习在复杂视觉识别任务中的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。