Skip to main content
QUICK REVIEW

[论文解读] OCR Post-Processing Error Correction Algorithm using Google Online Spelling Suggestion

Youssef Bassil, Mohammad Alwani|arXiv (Cornell University)|Apr 1, 2012
Handwritten Text Recognition Techniques参考文献 23被引用 75
一句话总结

本文提出了一种上下文感知的OCR后处理错误纠正算法,利用Google的在线拼写建议服务检测并纠正非单词错误和真实单词错误。通过利用Google庞大的网页索引词库,该方法显著提升了OCR输出的准确性,实证评估表明错误率得到明显降低。

ABSTRACT

With the advent of digital optical scanners, a lot of paper-based books, textbooks, magazines, articles, and documents are being transformed into an electronic version that can be manipulated by a computer. For this purpose, OCR, short for Optical Character Recognition was developed to translate scanned graphical text into editable computer text. Unfortunately, OCR is still imperfect as it occasionally mis-recognizes letters and falsely identifies scanned text, leading to misspellings and linguistics errors in the OCR output text. This paper proposes a post-processing context-based error correction algorithm for detecting and correcting OCR non-word and real-word errors. The proposed algorithm is based on Google's online spelling suggestion which harnesses an internal database containing a huge collection of terms and word sequences gathered from all over the web, convenient to suggest possible replacements for words that have been misspelled during the OCR process. Experiments carried out revealed a significant improvement in OCR error correction rate. Future research can improve upon the proposed algorithm so much so that it can be parallelized and executed over multiprocessing platforms.

研究动机与目标

  • 解决数字化文本中持续存在的OCR错误,特别是非单词错误和真实单词拼写错误。
  • 开发一种上下文敏感的错误纠正方法,以提升OCR输出质量。
  • 利用外部语言资源——特别是Google的在线拼写建议——以提高纠正准确性。
  • 评估将大规模语言模型集成到OCR后处理流程中的有效性。

提出的方法

  • 该算法通过词汇和上下文分析识别OCR生成文本中的潜在错误。
  • 调用Google的在线拼写建议API,为疑似拼写错误的单词检索候选纠正项。
  • 基于Google网页索引语料库中的频率和相关性对候选替换项进行排序。
  • 系统应用上下文感知过滤,从建议中选择最合理的纠正项。
  • 该方法区分非单词错误(无效标记)和真实单词错误(外观正确但实际错误的词)。
  • 通过将候选建议与上下文进行比较,确保语言连贯性,从而做出纠正决策。

实验结果

研究问题

  • RQ1Google的在线拼写建议服务能否有效纠正OCR引起的非单词和真实单词错误?
  • RQ2对Google建议纠正项进行上下文感知选择,如何提升OCR输出质量?
  • RQ3使用大规模、基于网络的词库对OCR后处理准确性有何影响?
  • RQ4外部语言模型在基本词典查找之外,能在多大程度上提升错误纠正效果?

主要发现

  • 所提出的算法通过利用Google庞大的网页索引词汇和短语数据库,显著降低了OCR错误率。
  • 将上下文感知过滤与Google建议相结合,提升了纠正选择的精度。
  • 该方法在性能上优于传统的基于词典的纠正技术。
  • 实验结果证实,OCR中常见的真实单词错误可有效利用大规模语言模型进行纠正。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。