QUICK REVIEW

[论文解读] TextBoxes: A Fast Text Detector with a Single Deep Neural Network

Minghui Liao, Baoguang Shi|arXiv (Cornell University)|Nov 21, 2016

Handwritten Text Recognition Techniques参考文献 26被引用 445

一句话总结

TextBoxes 提出了一种端到端的全卷积网络，用于快速场景文字检测，在单次前向传播中预测单词边界框，具有高准确性和速度，并在与识别器（CRNN）配对以进行单词定位和端到端识别时进一步提升性能。

ABSTRACT

This paper presents an end-to-end trainable fast scene text detector, named TextBoxes, which detects scene text with both high accuracy and efficiency in a single network forward pass, involving no post-process except for a standard non-maximum suppression. TextBoxes outperforms competing methods in terms of text localization accuracy and is much faster, taking only 0.09s per image in a fast implementation. Furthermore, combined with a text recognizer, TextBoxes significantly outperforms state-of-the-art approaches on word spotting and end-to-end text recognition tasks.

研究动机与目标

在自然图像中推动鲁棒、实时的场景文字检测。
开发一个端到端可训练的网络，直接预测单词边界框。
通过专门的输出层和默认框来应对单词纵横比的巨大变化。
展示检测与识别结合如何提升单词定位和端到端识别。

提出的方法

基于 VGG-16，使用一个28层的全卷积网络，在多个卷积层后添加文本框层。
在每个特征图位置预测文本存在分数和相对于多个默认框的边界框偏移（包括长纵横比）。
在文本框层中使用不规则的1x5卷积滤波器，创建适合单词形状的矩形感受野。
将默认框与真实单词框匹配，并优化一个多任务损失，结合分类（softmax）和定位（smooth L1）。
应用多尺度输入测试（五个尺度）以进一步提升准确性，并使用标准的非极大值抑制聚合输出。

实验结果

研究问题

RQ1在自然场景中，单个全卷积网络是否能够直接高精度和快速地预测单词边界框？
RQ2不规则的 inception 风格输出层和长纵横比的默认框是否能提高对极端纵横比单词的检测？
RQ3将文本识别器（CRNN）与检测结合是否能提升单词定位和端到端文本识别的性能？
RQ4多尺度输入对场景文字检测的准确性和速度有何影响？

主要发现

TextBoxes 在 ICDAR 2011 和 ICDAR 2013 基准测试上实现了最先进的文本定位性能，且速度很高。
在单尺度输入下，TextBoxes 每张图片0.09秒，在多尺度输入下每张图片0.73秒，硬件为 Titan X GPU。
使用 CRNN 进行识别可提升单词定位和端到端识别结果，为检测提供语义级正则化。
TextBoxes 在纵横比较大的单词方面尤为优于 SSD 等基线，这要归功于文本框层和不规则感受野。
结合词典时，TextBoxes 实现了强大的端到端识别性能，召回率/精确率提升，在各数据集上的F值具有竞争力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。