Skip to main content
QUICK REVIEW

[论文解读] A Hough Transform based Technique for Text Segmentation

Satadal Saha, Subhadip Basu|arXiv (Cornell University)|Feb 22, 2010
Vehicle License Plate Recognition参考文献 4被引用 50
一句话总结

本文提出了一种基于霍夫变换的文本行与单词分割方法,适用于数字化图像中的多种文档类型,包括多文种文档、名片和监控图像。该方法在文档图像上达到85.7%的准确率,在名片图像上达到94.6%,在监控摄像头图像上达到88%,在低分辨率和复杂场景下表现出强鲁棒性。

ABSTRACT

Text segmentation is an inherent part of an OCR system irrespective of the domain of application of it. The OCR system contains a segmentation module where the text lines, words and ultimately the characters must be segmented properly for its successful recognition. The present work implements a Hough transform based technique for line and word segmentation from digitized images. The proposed technique is applied not only on the document image dataset but also on dataset for business card reader system and license plate recognition system. For standardization of the performance of the system the technique is also applied on public domain dataset published in the website by CMATER, Jadavpur University. The document images consist of multi-script printed and hand written text lines with variety in script and line spacing in single document image. The technique performs quite satisfactorily when applied on mobile camera captured business card images with low resolution. The usefulness of the technique is verified by applying it in a commercial project for localization of license plate of vehicles from surveillance camera images by the process of segmentation itself. The accuracy of the technique for word segmentation, as verified experimentally, is 85.7% for document images, 94.6% for business card images and 88% for surveillance camera images.

研究动机与目标

  • 开发一种适用于多种文档类型的鲁棒文本分割技术,包括多文种和低分辨率图像。
  • 解决在实际应用中因文种类型多变、行间距不一和图像质量差异导致的文本分割挑战。
  • 在公开数据集及真实系统(如车牌识别和名片识别系统)上验证该方法。
  • 通过在复杂成像条件下实现文本行和单词的精确分割,提升OCR系统的性能。

提出的方法

  • 该方法利用霍夫变换检测线段和文本边界,通过将边缘像素映射到参数空间实现。
  • 通过识别主导的线段方向和空间聚类,将像素分组为连贯的文本行。
  • 通过检测行间间隙并结合行间间距分析实现单词分割。
  • 该算法可处理二值图像和灰度图像,在霍夫变换前应用边缘检测和形态学操作。
  • 通过聚焦于结构模式而非文种特定特征,将该方法适配于多文种及混合文种文档。
  • 使用标准指标在CMATER、贾瓦普尔大学及真实应用的数据集上评估性能。

实验结果

研究问题

  • RQ1基于霍夫变换的方法能否在行间距多变的多文种文档图像中有效分割文本行和单词?
  • RQ2与标准文档图像相比,该方法在低分辨率、手机拍摄的名片图像上的表现如何?
  • RQ3该技术仅通过分割手段,能在多大程度上实现对监控摄像头图像中车牌的定位?
  • RQ4该方法在包括印刷体、手写体和噪声输入在内的多种成像条件下,准确率如何?

主要发现

  • 在CMATER数据集的标准文档图像上,该方法实现了85.7%的单词分割准确率。
  • 在手机拍摄的名片图像上,该方法达到了94.6%的单词分割准确率,表明其在低分辨率环境下的优异表现。
  • 在监控摄像头图像上,该方法实现了88%的单词分割准确率,证明其在真实世界噪声环境中的有效性。
  • 该技术成功实现了对监控视频中车牌的定位,验证了其在商业应用中的实用性。
  • 基于霍夫变换的方法在多种文种和图像质量下表现出强鲁棒性,在复杂场景中优于传统方法。
  • 该方法依赖于几何结构而非文种特定特征,显著提升了在多文种文档中的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。