Skip to main content
QUICK REVIEW

[論文レビュー] OCR Post-Processing Error Correction Algorithm using Google Online Spelling Suggestion

Youssef Bassil, Mohammad Alwani|arXiv (Cornell University)|Apr 1, 2012
Handwritten Text Recognition Techniques参考文献 23被引用数 75
ひとこと要約

本稿では、Googleのオンラインスペル補足サービスを活用して、非語彙的誤りおよび実語彙的誤りの両方を検出し、修正する文脈に配慮したOCR後処理誤り訂正アルゴリズムを提案する。Googleが保有する膨大なウェブインデックス語彙データベースを活用することで、OCR出力の正確性が顕著に向上し、実証的評価を通じて誤り率の明確な低減が確認された。

ABSTRACT

With the advent of digital optical scanners, a lot of paper-based books, textbooks, magazines, articles, and documents are being transformed into an electronic version that can be manipulated by a computer. For this purpose, OCR, short for Optical Character Recognition was developed to translate scanned graphical text into editable computer text. Unfortunately, OCR is still imperfect as it occasionally mis-recognizes letters and falsely identifies scanned text, leading to misspellings and linguistics errors in the OCR output text. This paper proposes a post-processing context-based error correction algorithm for detecting and correcting OCR non-word and real-word errors. The proposed algorithm is based on Google's online spelling suggestion which harnesses an internal database containing a huge collection of terms and word sequences gathered from all over the web, convenient to suggest possible replacements for words that have been misspelled during the OCR process. Experiments carried out revealed a significant improvement in OCR error correction rate. Future research can improve upon the proposed algorithm so much so that it can be parallelized and executed over multiprocessing platforms.

研究の動機と目的

  • デジタイズドテキストにおける継続的なOCR誤り、特に非語彙的誤りおよび実語彙的誤りの是正に寄与すること。
  • OCR出力品質を向上させる文脈に配慮した誤り訂正アプローチの開発。
  • 特にGoogleのオンラインスペル補足を含む外部言語リソースを活用し、より高い訂正正確性を実現すること。
  • ウェブ規模の言語モデルをOCR後処理パイプラインに統合する有効性の評価。

提案手法

  • アルゴリズムは、語彙的および文脈的分析を通じてOCR出力テキスト内の潜在的誤りを同定する。
  • 疑わしい誤字語に対してGoogleのオンラインスペル補足APIを照会し、補正候補を取得する。
  • Googleのウェブインデックス語彙集に基づく頻度および関連性に基づいて、補正候補をランク付けする。
  • 文脈に配慮したフィルタリングを適用し、提示された候補の中から最も妥当な補正を選択する。
  • 誤りの種別として、無効なトークン(非語彙的誤り)と、見た目には正しいが誤りの語(実語彙的誤り)を区別する。
  • 補正意思決定は、周囲の文脈との比較を通じて言語的整合性を確保するように行う。

実験結果

リサーチクエスチョン

  • RQ1Googleのオンラインスペル補足サービスは、OCRに起因する非語彙的誤りおよび実語彙的誤りを効果的に訂正できるか?
  • RQ2Googleの補足候補に対する文脈に配慮した選択が、OCR出力品質をどのように向上させるか?
  • RQ3ウェブ由来の大規模語彙データベースを用いることで、OCR後処理の正確性にどのような影響を与えるか?
  • RQ4外部言語モデルを用いることで、基本的な辞書照合を上回る誤り訂正の向上はどの程度達成できるか?

主な発見

  • Googleの広範なウェブインデックス語彙およびフレーズデータベースを活用することで、提案されたアルゴリズムはOCR誤り率を顕著に低減した。
  • Googleの補足候補に文脈に配慮したフィルタリングを組み合わせることで、補正選択の正確性が向上した。
  • 従来の辞書ベースの訂正手法と比較して、本手法は優れた性能を示した。
  • 実験により、OCRでよく見られる実語彙的誤りも、ウェブ規模の言語モデルを用いることで効果的に訂正可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。