QUICK REVIEW

[論文レビュー] Design of an Optical Character Recognition System for Camera-based Handheld Devices

Ayatullah Faruk Mollah, Nabamita Majumder|arXiv (Cornell University)|Sep 15, 2011

Handwritten Text Recognition Techniques参考文献 11被引用数 65

ひとこと要約

本稿では、ハンドヘルドデバイス向けに最適化された軽量なカメラベースOCRシステムを提示する。テキスト領域検出、ずれ補正、二値化、行/文字分離、認識の各モジュールを備えている。100枚のモバイルカメラで撮影された名刺を評価対象として、92.74%の正確性を達成。Tesseractと同等の性能を発揮しながら、モバイルデプロイメントに適した低計算コストと低メモリ使用量を維持している。

ABSTRACT

This paper presents a complete Optical Character Recognition (OCR) system for camera captured image/graphics embedded textual documents for handheld devices. At first, text regions are extracted and skew corrected. Then, these regions are binarized and segmented into lines and characters. Characters are passed into the recognition module. Experimenting with a set of 100 business card images, captured by cell phone camera, we have achieved a maximum recognition accuracy of 92.74%. Compared to Tesseract, an open source desktop-based powerful OCR engine, present recognition accuracy is worth contributing. Moreover, the developed technique is computationally efficient and consumes low memory so as to be applicable on handheld devices.

研究の動機と目的

リソース制限のあるハンドヘルドデバイスに特化した効率的なOCRパイプラインの開発。
モバイルで撮影された画像の品質に起因する課題、たとえばずれ、ノイズ、照明のばらつきへの対処。
モバイルデプロイメントに適した計算負荷とメモリ消費量を最小限に抑えつつ、高い認識正確性を達成すること。
ハードウェア制限があるにもかかわらず、TesseractのようなデスクトップOCRエンジンと同等またはそれ以上の正確性を、モバイルで撮影されたデータに対して達成すること。

提案手法

エッジベースのセグメンテーションとモルフォロジカル操作を用いてテキスト領域を検出することで、潜在的なテキスト領域を分離する。
Hough変換に基づく直線検出を用いてずれ補正を実施し、回転したテキストを正しく整列させ、処理精度を向上させる。
カメラで撮影された画像における不均一な照明に対応するため、適応的しきい値処理を用いて二値化を実行する。
垂直および水平方向の投影プロファイルを用いて行および文字を分離し、個々の文字を分離する。
文字認識モジュールが分離された文字を処理し、おそらくテンプレートマッチングまたは特徴ベース分類を用いる。
全パイプラインを、ハンドヘルドデバイス上でリアルタイム性能を確保できるように、低メモリおよび処理オーバーヘッドに最適化する。

実験結果

リサーチクエスチョン

RQ1どのようにすれば、ハンドヘルドデバイスで撮影された低品質なテキストに対して高い正確性を維持できるOCRシステムを設計できるか？
RQ2モバイルOCRアプリケーションにおいて、ずれ補正および二値化に最も効果的な前処理技術は何か？
RQ3軽量OCRシステムは、Tesseractのようなデスクトップエンジンと同等の認識正確性を、モバイルで撮影されたデータに対して達成できるか？
RQ4認識性能を損なわせることなく、計算効率とメモリ使用量をどの程度まで低減できるか？

主な発見

本システムは、スマートフォンカメラで撮影された100枚の名刺画像から成るデータセットにおいて、最大92.74%の認識正確性を達成した。
提案されたOCRパイプラインは、広く使われているオープンソースのデスクトップOCRエンジンTesseractと比較して、強く優れた性能を示した。
本システムは計算効率が高く、メモリ消費量も少ないため、ハンドヘルドデバイスへのデプロイメントに適している。
ずれ補正および適応的二値化は、現実世界のノイズが多いカメラで撮影された画像において、認識正確性を顕著に向上させた。
モルフォロジカルセグメンテーション、投影ベースの行および文字分離、および堅牢な前処理の組み合わせにより、厳しい撮影環境下でも高い正確性が実現された。
本システムの性能は、実用的で現実世界のモバイルで撮影された名刺のデータセットを用いて検証され、実際のデプロイメントシナリオへの適用可能性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。