QUICK REVIEW

[論文レビュー] A Hough Transform based Technique for Text Segmentation

Satadal Saha, Subhadip Basu|arXiv (Cornell University)|Feb 22, 2010

Vehicle License Plate Recognition参考文献 4被引用数 50

ひとこと要約

本稿では、多様なドキュメントタイプ、特にマルチスクリプトドキュメント、名刺、監視映像を含むデジタル化された画像におけるテキストラインおよび単語のセグメンテーションのためのホフ変換ベースの手法を提案する。この手法は、ドキュメント画像で85.7%、名刺で94.6%、監視カメラ画像で88%の精度を達成し、低解像度および複雑な状況でも高い頑健性を示している。

ABSTRACT

Text segmentation is an inherent part of an OCR system irrespective of the domain of application of it. The OCR system contains a segmentation module where the text lines, words and ultimately the characters must be segmented properly for its successful recognition. The present work implements a Hough transform based technique for line and word segmentation from digitized images. The proposed technique is applied not only on the document image dataset but also on dataset for business card reader system and license plate recognition system. For standardization of the performance of the system the technique is also applied on public domain dataset published in the website by CMATER, Jadavpur University. The document images consist of multi-script printed and hand written text lines with variety in script and line spacing in single document image. The technique performs quite satisfactorily when applied on mobile camera captured business card images with low resolution. The usefulness of the technique is verified by applying it in a commercial project for localization of license plate of vehicles from surveillance camera images by the process of segmentation itself. The accuracy of the technique for word segmentation, as verified experimentally, is 85.7% for document images, 94.6% for business card images and 88% for surveillance camera images.

研究の動機と目的

多様なドキュメントタイプ、特にマルチスクリプトおよび低解像度画像に対応可能な頑健なテキストセグメンテーション技術の開発を目的とする。
実世界の応用において、スクリプトタイプのばらつき、ライン間隔の変動、画像品質の悪さに起因するテキストセグメンテーションの課題を解決することを目的とする。
ライセンスプレート認識や名刺リーダーなどの実世界のシステムを含む、公開データセット上で手法の妥当性を検証することを目的とする。
複雑な画像条件下でのテキストラインおよび単語の正確なセグメンテーションを可能にすることで、OCRシステムのパフォーマンスを向上させることを目的とする。

提案手法

本手法は、エッジピクセルをパラメータ空間に変換することで、線分およびテキスト境界を検出するホフ変換を用いる。
主なライン方向と空間クラスタを特定し、ピクセルを整合性のあるテキストラインにグループ化する。
ライン間のギャップを検出し、単語間隔解析を適用することで、単語セグメンテーションを実現する。
バイナリ画像およびグレースケール画像の両方を処理し、ホフ変換の前段階でエッジ検出およびモルフォロジカル操作を活用する。
スクリプト固有の特徴ではなく構造的パターンに注目することで、マルチスクリプトおよびミックスドスクリプトドキュメントに対応する。
CMATER、ジャダプル大学、および実世界の応用からのデータセットを用いて、標準的な指標で性能を評価する。

実験結果

リサーチクエスチョン

RQ1ホフ変換ベースの手法は、ライン間隔がばらつきがちなマルチスクリプトドキュメント画像において、テキストラインおよび単語を効果的にセグメンテーションできるか？
RQ2本手法は、標準的なドキュメント画像と比較して、モバイルカメラで撮影された低解像度の名刺画像において、どの程度の性能を示すか？
RQ3セグメンテーションのみを用いて、監視カメラ画像におけるライセンスプレートの局所化はどの程度可能か？
RQ4印刷済み、手書き、ノイズ混在の入力が含まれる多様な画像条件下で、本手法の精度はどの程度か？

主な発見

本手法は、CMATERデータセットの標準的ドキュメント画像において85.7%の単語セグメンテーション精度を達成した。
モバイルカメラで撮影された名刺画像において、本手法は94.6%の単語セグメンテーション精度に達し、低解像度環境下でも優れた性能を示した。
監視カメラ画像において、本手法は88%の単語セグメンテーション精度を達成し、実世界のノイズ混在環境でも有効性を示した。
本手法は、監視映像のライセンスプレートを成功裏に局所化し、商業的応用における実用性を裏付けた。
ホフ変換ベースのアプローチは、多様なスクリプトおよび画像品質に対し頑健であることが実証され、複雑な状況下で従来手法を上回った。
スクリプト固有の特徴ではなく幾何学的構造に依存する本手法の特性が、マルチスクリプトドキュメントにおける一般化性能の向上に寄与した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。