[论文解读] PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text
PAN++ 提出了一种高效且准确的端到端框架,用于任意形状文本检测与识别,采用一种新颖的核表示方法,将文本建模为中心核区域及其周围的边缘像素。通过利用完全卷积的架构与轻量化组件——堆叠的特征金字塔增强模块(FPEM)、像素聚合感知检测头,以及基于掩码 RoI 的识别头——PAN++ 在 Total-Text 数据集上实现了 64.9 的 F-measure,推理速度达 29.2 FPS,显著优于以往方法在速度与准确率上的表现。
Scene text detection and recognition have been well explored in the past few years. Despite the progress, efficient and accurate end-to-end spotting of arbitrarily-shaped text remains challenging. In this work, we propose an end-to-end text spotting framework, termed PAN++, which can efficiently detect and recognize text of arbitrary shapes in natural scenes. PAN++ is based on the kernel representation that reformulates a text line as a text kernel (central region) surrounded by peripheral pixels. By systematically comparing with existing scene text representations, we show that our kernel representation can not only describe arbitrarily-shaped text but also well distinguish adjacent text. Moreover, as a pixel-based representation, the kernel representation can be predicted by a single fully convolutional network, which is very friendly to real-time applications. Taking the advantages of the kernel representation, we design a series of components as follows: 1) a computationally efficient feature enhancement network composed of stacked Feature Pyramid Enhancement Modules (FPEMs); 2) a lightweight detection head cooperating with Pixel Aggregation (PA); and 3) an efficient attention-based recognition head with Masked RoI. Benefiting from the kernel representation and the tailored components, our method achieves high inference speed while maintaining competitive accuracy. Extensive experiments show the superiority of our method. For example, the proposed PAN++ achieves an end-to-end text spotting F-measure of 64.9 at 29.2 FPS on the Total-Text dataset, which significantly outperforms the previous best method. Code will be available at: https://git.io/PAN.
研究动机与目标
- 解决自然场景中任意形状文本高效且准确的端到端检测挑战。
- 通过引入基于核的表示方法,克服现有文本表示(如四边形、像素级、bbox-像素)的局限性,支持弯曲及相邻文本的建模。
- 设计一种单阶段、完全卷积的流水线,实现实时推理的同时保持高准确率。
- 通过在合成数据与真实世界数据上联合训练,提升模型在不同数据集间的泛化能力,实现优异的跨数据集性能。
提出的方法
- 提出一种核表示方法,将文本行建模为以中心核(文本核心)为中心、周围环绕边缘像素的结构,从而实现对弯曲及相邻文本的紧密且灵活的边界预测。
- 设计一种特征增强网络,利用堆叠的特征金字塔增强模块(FPEMs)高效聚合多尺度特征。
- 实现一种轻量化检测头,引入像素聚合(PA)机制,可在单次前向传播中同时预测核区域与边缘区域。
- 提出一种基于掩码 RoI 的识别头,聚焦于核区域并抑制背景噪声,从而提升识别准确率。
- 采用单一全卷积神经网络端到端训练整个流水线,实现在 GPU 上的实时推理。
- 通过并行化识别头实现推理速度优化,实际推理时间减少一半。
![Figure 1: Comparisons of different scene text representations. (a) The quadrilateral representation [ 9 , 3 , 7 ] fail to locate curved text lines. (b) The pixel-wise representation [ 10 ] is not able to separate adjacent text lines. (c) Although the bounding-box-pixel (bbox-pixel) representation [](https://ar5iv.labs.arxiv.org/html/2105.00405/assets/x1.png)
实验结果
研究问题
- RQ1基于核的表示能否有效建模任意形状及相邻的文本行,同时支持单阶段、端到端预测?
- RQ2与现有表示方法(四边形、像素级、bbox-像素)相比,所提出的核表示在准确率与效率方面表现如何?
- RQ3完全卷积的轻量化架构是否能在实现实时推理速度的同时,达到检测与识别任务的最先进性能?
- RQ4该模型在多样化数据集(包括合成与真实世界基准)上的泛化能力如何?
- RQ5系统的主要失败模式是什么?能否通过更优的数据或架构改进加以缓解?
主要发现
- PAN++ 在 Total-Text 数据集上实现了 64.9 的端到端文本检测识别 F-measure,推理速度达 29.2 FPS,显著优于以往最先进方法。
- 仅在 SynthText 上预训练的模型,在 Total-Text 上达到 51.5 的 F-measure,在 IC15 上达到 53.9,展现出强大的零样本泛化能力。
- 在文本行级别的跨数据集评估中,所有模型的 F-measure 均超过 78,其中 CTW1500→MSRA-TD500 达 79.7,MSRA-TD500→CTW1500 达 78.2,表明模型具备出色的泛化性能。
- 识别头占总推理时间近一半,通过并行化处理,延迟降低至一半,实现真正的实时部署。
- 失败案例主要包括字符间距过大、类文本非文本区域,以及风格化字体,主要归因于数据稀疏性与缺乏语言上下文信息。
- 核表示能够实现对弯曲及相邻文本行的紧密、精确分割,在灵活性与分离能力方面均优于四边形与像素级表示。
![Figure 2: End-to-end text spotting F-measure and inference speed on Total-Text. Our PAN++ has extreme advantages compared with counterparts. “PAN++ 736” (the short size of the input image being 736 pixels) is 5.0 points better than ABCNet [ 22 ] and the inference speed is faster. “PAN++ 512” execute](https://ar5iv.labs.arxiv.org/html/2105.00405/assets/x2.png)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。