QUICK REVIEW

[论文解读] Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition

Christoph Wick, Christian Reul|arXiv (Cornell University)|Jul 5, 2018

Handwritten Text Recognition Techniques被引用 24

一句话总结

Calamari 是一个基于 TensorFlow 的高性能深度学习框架，用于光学字符识别（OCR），采用可定制的 CNN-LSTM 架构，通过连接时序分类（CTC）进行训练，并原生支持预训练和投票机制。其在现代英语（UW3）上的字符错误率（CER）达到 0.11%，在德语弗拉姆堡体（DTA19）上的 CER 为 0.18%，优于 OCRopy、OCRopus3 和 Tesseract 4，达到当前最先进水平。

ABSTRACT

Optical Character Recognition (OCR) on contemporary and historical data is still in the focus of many researchers. Especially historical prints require book specific trained OCR models to achieve applicable results (Springmann and L\\"udeling, 2016, Reul et al., 2017a). To reduce the human effort for manually annotating ground truth (GT) various techniques such as voting and pretraining have shown to be very efficient (Reul et al., 2018a, Reul et al., 2018b). Calamari is a new open source OCR line recognition software that both uses state-of-the art Deep Neural Networks (DNNs) implemented in Tensorflow and giving native support for techniques such as pretraining and voting. The customizable network architectures constructed of Convolutional Neural Networks (CNNS) and Long-ShortTerm-Memory (LSTM) layers are trained by the so-called Connectionist Temporal Classification (CTC) algorithm of Graves et al. (2006). Optional usage of a GPU drastically reduces the computation times for both training and prediction. We use two different datasets to compare the performance of Calamari to OCRopy, OCRopus3, and Tesseract 4. Calamari reaches a Character Error Rate (CER) of 0.11% on the UW3 dataset written in modern English and 0.18% on the DTA19 dataset written in German Fraktur, which considerably outperforms the results of the existing softwares.

研究动机与目标

减少在历史和当代文本 OCR 模型训练过程中的人工标注工作量。
开发一个高性能、开源的 OCR 系统，支持如预训练和集成投票等先进深度学习技术。
通过最先进的深度神经网络，提升在德语弗拉姆堡体等具有挑战性的历史文字上的 OCR 准确率。
提供一个灵活、可定制的框架，用于基于 CNN-LSTM 架构和 CTC 损失的行级 OCR。
通过 GPU 加速和优化的 TensorFlow 实现，实现高效训练和推理。

提出的方法

该系统使用可定制的深度神经网络架构，结合卷积神经网络（CNNs）和长短期记忆（LSTM）层。
训练采用连接时序分类（CTC）算法，以处理序列到序列的对齐，而无需显式对齐输入和输出。
该框架原生支持在大规模未标注文本数据上进行预训练，以提升泛化能力并减少标注需求。
它集成了多个模型之间的投票机制，以增强预测的鲁棒性和准确性。
支持 GPU 加速，显著缩短训练和推理时间。
模型在两个基准数据集上进行训练和评估：UW3（现代英语）和 DTA19（德语弗拉姆堡体）。

实验结果

研究问题

RQ1一个原生支持预训练和投票机制的基于深度学习的 OCR 系统，是否能在历史和当代文本识别任务中实现更优性能？
RQ2将 CNN-LSTM 架构与 CTC 训练相结合，如何改善在德语弗拉姆堡体等复杂文字上的字符错误率？
RQ3预训练在多大程度上能够减少 OCR 任务中对大规模人工标注真实标签数据的需求？
RQ4与 Tesseract 4、OCRopus3 和 OCRopy 等现有 OCR 工具相比，Calamari 在性能和效率方面表现如何？
RQ5一个基于 TensorFlow 的框架，若支持 GPU 加速，是否能显著缩短 OCR 任务的训练和推理时间？

主要发现

在包含现代英语文本的 UW3 数据集上，Calamari 的字符错误率（CER）达到 0.11%，优于 OCRopy、OCRopus3 和 Tesseract 4。
在包含德语弗拉姆堡体文字的 DTA19 数据集上，Calamari 的 CER 为 0.18%，在历史文字识别任务中表现卓越。
预训练与投票机制的结合显著提升了模型的鲁棒性并降低了错误率，尤其在低资源场景下效果明显。
GPU 加速显著缩短了训练和推理时间，提升了复杂模型训练的实际可行性。
该框架基于 CTC 训练的可定制 CNN-LSTM 架构，为高精度行级 OCR 提供了坚实基础。
Calamari 是开源的，且设计具有可扩展性，支持研究人员根据多样化 OCR 应用需求对系统进行适配。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。