Skip to main content
QUICK REVIEW

[论文解读] Word level Script Identification from Bangla and Devanagri Handwritten Texts mixed with Roman Script

Ram Sarkar, Nibaran Das|arXiv (Cornell University)|Feb 21, 2010
Handwritten Text Recognition Techniques参考文献 18被引用 25
一句话总结

本文提出了一种针对孟加拉文与德维纳格里文字与罗马字母混排的手写文档的逐词文字脚本识别系统。通过使用与脚本无关的邻近组件分析技术提取文本行和单词,再利用基于八个整体特征训练的多层感知机分类器,该方法在独立的孟加拉文-罗马字母和德维纳格里文-罗马字母数据集上分别实现了99.29%和98.43%的准确率。

ABSTRACT

India is a multi-lingual country where Roman script is often used alongside different Indic scripts in a text document. To develop a script specific handwritten Optical Character Recognition (OCR) system, it is therefore necessary to identify the scripts of handwritten text correctly. In this paper, we present a system, which automatically separates the scripts of handwritten words from a document, written in Bangla or Devanagri mixed with Roman scripts. In this script separation technique, we first, extract the text lines and words from document pages using a script independent Neighboring Component Analysis technique. Then we have designed a Multi Layer Perceptron (MLP) based classifier for script separation, trained with 8 different wordlevel holistic features. Two equal sized datasets, one with Bangla and Roman scripts and the other with Devanagri and Roman scripts, are prepared for the system evaluation. On respective independent text samples, word-level script identification accuracies of 99.29% and 98.43% are achieved.

研究动机与目标

  • 为解决在多语言印度常见的多语言手写文档中脚本识别的挑战,特别是孟加拉文或德维纳格里文与罗马字母混合的情况。
  • 通过准确识别混合脚本文档中单个单词的脚本,开发针对特定脚本的手写OCR系统。
  • 通过实现自动化的逐词脚本分离,克服现有OCR系统在混合脚本内容上失效的局限性。
  • 在真实世界的手写混合脚本数据上评估脚本识别系统的性能,实现高准确率。

提出的方法

  • 使用与脚本无关的邻近组件分析技术从文档图像中提取文本行和单词。
  • 提取八个整体的单词级特征,以表征每个单词的视觉和结构特征。
  • 训练一个多层感知机(MLP)分类器,基于提取的特征区分孟加拉文/罗马字母和德维纳格里文/罗马字母的脚本对。
  • 创建了两个独立的数据集:一个包含孟加拉文和罗马字母,另一个包含德维纳格里文和罗马字母,用于评估。
  • 系统对每个单词单独处理,将其分类为混合文档中出现的两种脚本之一。
  • 使用交叉验证在两个平衡数据集上对分类器进行训练和测试,以确保鲁棒性。

实验结果

研究问题

  • RQ1机器学习模型能否在孟加拉文与罗马字母共存的手写文档中准确识别单个手写单词的脚本?
  • RQ2具有整体特征的多层感知机分类器在区分手写文本中德维纳格里文与罗马字母方面的有效性如何?
  • RQ3与脚本无关的文本行和单词提取技术在多语言混合脚本文档中对准确脚本识别的支持程度如何?
  • RQ4当训练数据与测试数据严格按脚本对分离(孟加拉文-罗马字母 vs. 德维纳格里文-罗马字母)时,可实现的逐词脚本识别准确率水平如何?

主要发现

  • 所提出的系统在孟加拉文与罗马字母数据集上实现了99.29%的逐词脚本识别准确率。
  • 在德维纳格里文与罗马字母数据集上,系统实现了98.43%的逐词准确率。
  • 使用八个整体的单词级特征显著提升了MLP分类器的判别能力。
  • 与脚本无关的邻近组件分析技术在无需事先了解脚本知识的情况下,有效提取了文本行和单词。
  • MLP分类器在来自相同脚本对的未见混合脚本样本上表现出强大的泛化能力。
  • 结果表明,整体特征与前馈神经网络相结合,对于多语言手写文档中的逐词脚本识别具有高度有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。