Skip to main content
QUICK REVIEW

[论文解读] OCR of historical printings with an application to building diachronic corpora: A case study using the RIDGES herbal corpus

Uwe Springmann, Anke Lüdeling|arXiv (Cornell University)|Aug 6, 2016
Handwritten Text Recognition Techniques被引用 33
一句话总结

本文提出了一种基于神经网络的OCR系统,使用OCRopus引擎,基于1487年至1870年历史德语草药书的外交式转录文本进行训练,字符准确率达到94%至99%,词级准确率达到76%至97%。该方法实现了对早期印刷文本(包括印地安纳文献)的高精度自动化数字化,并支持以最少的人工干预,大规模构建历时性语料库。

ABSTRACT

This article describes the results of a case study that applies Neural Network-based Optical Character Recognition (OCR) to scanned images of books printed between 1487 and 1870 by training the OCR engine OCRopus [@breuel2013high] on the RIDGES herbal text corpus [@OdebrechtEtAlSubmitted]. Training specific OCR models was possible because the necessary *ground truth* is available as error-corrected diplomatic transcriptions. The OCR results have been evaluated for accuracy against the ground truth of unseen test sets. Character and word accuracies (percentage of correctly recognized items) for the resulting machine-readable texts of individual documents range from 94% to more than 99% (character level) and from 76% to 97% (word level). This includes the earliest printed books, which were thought to be inaccessible by OCR methods until recently. Furthermore, OCR models trained on one part of the corpus consisting of books with different printing dates and different typesets *(mixed models)* have been tested for their predictive power on the books from the other part containing yet other fonts, mostly yielding character accuracies well above 90%. It therefore seems possible to construct generalized models trained on a range of fonts that can be applied to a wide variety of historical printings still giving good results. A moderate postcorrection effort of some pages will then enable the training of individual models with even better accuracies. Using this method, diachronic corpora including early printings can be constructed much faster and cheaper than by manual transcription. The OCR methods reported here open up the possibility of transforming our printed textual cultural heritage into electronic text by largely automatic means, which is a prerequisite for the mass conversion of scanned books.

研究动机与目标

  • 开发一种可训练的OCR系统,能够准确识别历史印刷文本,包括以往被认为不适合OCR的早期印地安纳文献。
  • 评估基于神经网络的OCR在涵盖四个世纪的多样化历史德语草药书语料库上的性能。
  • 评估在混合字体上训练的OCR模型向未见的历史文本(具有不同字体和印刷日期)的可迁移性。
  • 证明广义混合模型OCR系统可作为语料库构建的可靠初步近似,从而减少对完整人工转录的依赖。

提出的方法

  • 使用OCRopus引擎,基于循环神经网络(LSTM-RNN)架构,在历史书籍的扫描图像上训练自定义OCR模型。
  • 使用外交式转录文本——即经过纠错、字形精确的原文转录——作为监督训练的真值。
  • 通过在包含多个印刷日期和字体的RIDGES语料库多样化子集上进行训练,构建混合模型OCR系统。
  • 使用字符级和词级准确率指标,在未见测试集上评估OCR性能。
  • 对少量页面进行后处理校正,以进一步优化模型并提高准确率。
  • 在CC-BY许可下发布训练好的模型及由此产生的OCR语料库(RIDGES-OCR),以支持再利用和社区开发。

实验结果

研究问题

  • RQ1基于神经网络的OCR能否在历史印刷文本(包括15世纪的印地安纳文献)上实现高准确率?
  • RQ2在多种字体上训练的OCR模型在泛化到具有不同字体和印刷日期的新未见历史文本方面,其适用程度如何?
  • RQ3OCR准确率在RIDGES语料库中不同时间段和字体之间如何变化?
  • RQ4广义OCR模型能否作为语料库构建的可行初步近似,从而减少对人工转录的依赖?
  • RQ5少量后处理校正对提升OCR准确率以及训练更精确的个体模型有何影响?

主要发现

  • RIDGES语料库中各文档的OCR结果字符级准确率在94%至99%之间,即使对于15世纪的文本也表现优异。
  • 词级准确率在76%至97%之间,表明在拼写和排版多变的复杂历史文本上表现强劲。
  • 在包含不同印刷日期和字体的混合字体上训练的OCR模型,在未见历史文本上实现了超过90%的字符级准确率,表明其具有强大的泛化能力。
  • 对少量页面进行后处理校正显著提升了模型准确率,从而能够训练出高度精确的个体模型。
  • 由此产生的RIDGES-OCR语料库和广义混合模型已公开发布,采用CC-BY许可,支持再利用和社区驱动的模型改进。
  • 本研究证明,通过极少的人工干预,可以大规模生成高质量、机器可读的历史印刷文本,从而显著加速历时性语料库的构建。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。