Skip to main content
QUICK REVIEW

[论文解读] Off-Line Arabic Handwriting Character Recognition Using Word Segmentation

Manal Abdullah, Lulwah M. Al-Harigy|arXiv (Cornell University)|Jun 7, 2012
Handwritten Text Recognition Techniques参考文献 8被引用 23
一句话总结

本文提出了一种新型的离线阿拉伯手写识别系统,通过词段分割技术提升字符识别准确率。通过预处理分割后的字符,并使用相似度阈值(45–55%)与自建数据库进行匹配,该方法实现了81%的识别准确率,同时消除了误接受率(FAR)。

ABSTRACT

The ultimate aim of handwriting recognition is to make computers able to read and/or authenticate human written texts, with a performance comparable to or even better than that of humans. Reading means that the computer is given a piece of handwriting and it provides the electronic transcription of that (e.g. in ASCII format). Two types of handwriting: on-line and offline. The most important purpose of off-line handwriting recognition is in protection systems and authentication. Arabic Handwriting scripts are much more complicated in comparison to Latin scripts. This paper introduces a simple and novel methodology to authenticate Arabic handwriting characters. Reaching our aim, we built our own character database. The research methodology depends on two stages: The first is character extraction where preprocessing the word and then apply segmentation process to obtain the character. The second is the character recognition by matching the characters comprising the word with the letters in the database. Our results ensure character recognition with 81%. We eliminate FAR by using similarity percent between 45-55%. Our research is coded using MATLAB.

研究动机与目标

  • 开发一种基于分段预处理的稳健方法,用于识别离线阿拉伯手写字符。
  • 解决阿拉伯文字的复杂性,其具有连笔形式和上下文变体,比拉丁字母更具挑战性。
  • 通过在识别过程中采用基于相似度的阈值机制,彻底消除误接受率(FAR)。
  • 构建一个自定义阿拉伯字符数据库,以支持识别系统的训练与评估。
  • 实现并评估一个两阶段识别流程:通过分段提取字符,再通过数据库匹配进行识别。

提出的方法

  • 对输入的单词图像进行预处理,以增强对比度并去除噪声,随后进行分割。
  • 应用词段分割技术,利用几何分析和投影轮廓分析从连笔阿拉伯文字中分离出单个字符。
  • 使用形态学和结构分析从分割后的字符中提取特征,以供比较。
  • 使用相似度度量将每个分割后的字符与自建的阿拉伯字符数据库进行匹配。
  • 设定45–55%的相似度阈值范围,以拒绝模糊匹配并消除误接受(FAR)。
  • 在MATLAB中实现整个系统,用于原型设计与评估。

实验结果

研究问题

  • RQ1词段分割能否在离线场景中有效从连笔手写单词中分离出单个阿拉伯字符?
  • RQ245–55%的相似度阈值范围如何影响阿拉伯字符识别中的误接受率(FAR)?
  • RQ3自建字符数据库在多大程度上能提升离线阿拉伯手写识别系统的识别准确率?
  • RQ4在阿拉伯文字中,结合分段处理与基于相似度的匹配,可实现的识别准确率是多少?
  • RQ5所提出的方案能否在不依赖在线动态特征的情况下实现可靠的认证?

主要发现

  • 所提出的方法在自建的阿拉伯字符数据库上实现了81%的字符识别准确率。
  • 通过在匹配过程中强制使用45–55%的相似度阈值范围,完全消除了误接受率(FAR)。
  • 基于分段的预处理方法能有效从连笔阿拉伯单词中分离出单个字符,从而实现可靠的特征提取。
  • 使用针对特定手写风格定制的自建数据库,相比通用数据集,显著提升了识别性能。
  • 系统在MATLAB中完全实现,证明了其在学术与应用研究中的可行性与可复现性。
  • 相似度阈值机制有效提升了系统对模糊或噪声字符匹配的鲁棒性,增强了系统的安全性和可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。