[论文解读] PP-OCR: A Practical Ultra Lightweight OCR System
PP-OCR 提供一个实用的超轻量 OCR 系统,总模型大小为 3.5M,用于中文/英文字符识别(6622 chars)和 2.8M,用于字母数字符号,具备一系列精简和提升准确性的策略,以及开源的预训练模型。
The Optical Character Recognition (OCR) systems have been widely used in various of application scenarios, such as office automation (OA) systems, factory automations, online educations, map productions etc. However, OCR is still a challenging task due to the various of text appearances and the demand of computational efficiency. In this paper, we propose a practical ultra lightweight OCR system, i.e., PP-OCR. The overall model size of the PP-OCR is only 3.5M for recognizing 6622 Chinese characters and 2.8M for recognizing 63 alphanumeric symbols, respectively. We introduce a bag of strategies to either enhance the model ability or reduce the model size. The corresponding ablation experiments with the real data are also provided. Meanwhile, several pre-trained models for the Chinese and English recognition are released, including a text detector (97K images are used), a direction classifier (600K images are used) as well as a text recognizer (17.9M images are used). Besides, the proposed PP-OCR are also verified in several other language recognition tasks, including French, Korean, Japanese and German. All of the above mentioned models are open-sourced and the codes are available in the GitHub repository, i.e., https://github.com/PaddlePaddle/PaddleOCR.
研究动机与目标
- 在资源受限的设备和嵌入式环境中提升高效 OCR 的需求。
- 开发一个超轻量 OCR 流程,包含文本检测、框纠正和文本识别。
- 系统性地应用模型增强和瘦身技术,在尽量保持准确性的前提下缩小体积。
- 提供开源的预训练模型以及消融研究,展示大小、速度和准确性之间的权衡。
提出的方法
- 采用三部分组成的 OCR 流程:使用 Differentiable Binarization (DB) 的文本检测,搭载轻量化的骨干网络和头部;对检测框进行文本方向分类器的框纠正;以及使用轻量化骨干的 CRNN 进行文本识别。
- 六种策略应用于文本检测(轻量骨干、轻量头部设计、去除 SE、余弦学习率衰减、学习率预热、FPGM 剪枝)以将大小缩小到 1.4M。
- 对方向分类应用四种策略(轻量骨干、数据增强、输入分辨率、PACT 量化)以实现 500KB 的大小。
- 对文本识别应用九种策略(轻量骨干、数据增强、余弦学习率衰减、特征图分辨率调整、正则化、学习率预热、轻量头部、预训练模型、PACT 量化)以将识别器缩小至 1.6M(中文/英文)和 900KB(字母数字)。
- 在一个大型多部分数据集上进行训练(文本检测、方向分类、文本识别),并提供额外语言覆盖(法语、韩语、日语、德语)。
- 在 PaddleOCR 中发布预训练模型和代码,以便更广泛复用。
实验结果
研究问题
- RQ1如何在不牺牲实际场景中的可用准确性的前提下,将 OCR 系统做成极致轻量?
- RQ2在检测、方向分类和识别的情况下,哪种骨干网络、数据增强、分辨率选择和量化技术的组合能在模型大小、速度和准确性之间取得最佳权衡?
- RQ3一个连贯的 PP-OCR 系统能否在中文和英文之外的语言中泛化,包括字母数字、法语、韩语、日语和德语?
主要发现
- PP-OCR 系统在中文/英文识别方面实现总大小 3.5M 的超轻量级,以及在字母数字识别方面实现 2.8M。
- 文本检测器的大小可以通过轻量化骨干和头部设计再加上剪枝和基于硬件的优化缩小到 1.4M。
- 方向分类器可以通过四种策略(包括数据增强和 PACT 量化)维持 500KB 的大小,同时保持有竞争力的准确性。
- 文本识别器通过轻量骨干、数据增强和 PACT 量化的组合,可达到 1.6M(中文/英文)或 900KB(字母数字),同时保持实际准确性。
- 广泛的消融研究展示了骨干选择、特征图分辨率、数据增强和量化对准确性(HMean、F-score)和效率(推理时间)的影响。
- 作者通过 PaddleOCR 提供开源预训练模型和代码,使跨语言的更广泛使用成为可能(包括法语、韩语、日语、德语)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。