Skip to main content
QUICK REVIEW

[论文解读] Combining Morphological and Histogram based Text Line Segmentation in the OCR Context

Pit Schneider|arXiv (Cornell University)|Mar 16, 2021
Handwritten Text Recognition Techniques参考文献 9被引用 2
一句话总结

本文提出 COMBISEG,一种结合形态学操作与水平投影的混合文本行分割方法,用于鲁棒、高效的古籍报纸 OCR。其在每幅图像上平均处理时间为 17.08ms,准确率达 99.2%,显著优于基准方法 BENCH 的处理速度(769.25ms),同时在退化、二值化、单栏文本扫描中保持高精度。

ABSTRACT

Text line segmentation is one of the pre-stages of modern optical character recognition systems. The algorithmic approach proposed by this paper has been designed for this exact purpose. Its main characteristic is the combination of two different techniques, morphological image operations and horizontal histogram projections. The method was developed to be applied on a historic data collection that commonly features quality issues, such as degraded paper, blurred text, or presence of noise. For that reason, the segmenter in question could be of particular interest for cultural institutions, that want access to robust line bounding boxes for a given historic document. Because of the promising segmentation results that are joined by low computational cost, the algorithm was incorporated into the OCR pipeline of the National Library of Luxembourg, in the context of the initiative of reprocessing their historic newspaper collection. The general contribution of this paper is to outline the approach and to evaluate the gains in terms of accuracy and speed, comparing it to the segmentation algorithm bundled with the used open source OCR software.

研究动机与目标

  • 开发一种专为质量退化的历史报纸文献集合设计的快速、高精度文本行分割方法。
  • 通过最小化处理时间,在 OCR 流程中降低计算成本,同时不牺牲分割精度。
  • 解决现有开源 OCR 工具(如 BENCH)在噪声多、质量差的扫描中处理时间长、文本行碎片化的问题。
  • 创建一种轻量级、非学习型解决方案,避免训练阶段,同时在真实世界历史文档数据上保持鲁棒性。
  • 可无缝集成至现有 OCR 流程中,特别适用于卢森堡国家图书馆的报纸重处理计划。

提出的方法

  • COMBISEG 对二值化输入图像(Ib)使用形态学操作,包括使用水平结构元素进行膨胀,以连接断裂的文本组件。
  • 在形态学处理后的图像(Ip)上应用水平直方图投影,以检测对应于文本行位置的峰值与谷值。
  • 基于直方图峰值生成边界框,并通过后处理规则合并相邻框:若垂直重叠超过单个框高度的 75% 或两者合并高度的 50%,则进行合并。
  • 使用 Otsu 二值化作为预处理步骤,并假设文本为单栏、水平对齐且无手写体。
  • 避免复杂的版面分析,仅聚焦于行级分割,以减少计算开销。
  • 通过一致的垂直重叠阈值对 COMBISEG 和 BENCH 的碎片化输出进行后处理,确保公平比较。

实验结果

研究问题

  • RQ1结合形态学与直方图投影的混合方法是否能提升在退化历史报纸扫描中的文本行分割精度?
  • RQ2所提出的 COMBISEG 方法是否在保持高精度的同时,显著降低处理时间,优于 BENCH 基准?
  • RQ3形态学预处理与直方图分析的结合在多大程度上缓解了噪声、模糊文本和行连接错误等问题?
  • RQ4在真实世界、低质量历史文档数据上,COMBISEG 相较于 BENCH 的鲁棒性如何?
  • RQ5非学习型方法是否能在单栏、二值化文本分割任务中,实现比学习型方法更高的速度与效率?

主要发现

  • 基于 114,625 幅图像的真值评估,COMBISEG 的分割准确率达到 99.2%,优于 BENCH 的 98.2%。
  • COMBISEG 的平均处理时间为每幅图像 17.08ms,相比 BENCH 的 769.25ms,降低了 97.8%。
  • 该方法在退化纸张、噪声和模糊文本上表现出更优的鲁棒性,有效减少了误报和行合并错误。
  • 后处理规则成功规范化了输出碎片化,实现了 COMBISEG 与 BENCH 的公平比较。
  • COMBISEG 的非训练设计避免了模型微调需求,使其非常适合数据持续演化的档案系统。
  • 该算法非常适合集成至大规模历史文献数字化项目的 OCR 流程中,其有效性已通过卢森堡国家图书馆报纸重处理计划的采纳得到验证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。