[论文解读] Recognition of Handwritten Textual Annotations using Tesseract Open Source OCR Engine for information Just In Time (iJIT)
本文提出了一种基于 Tesseract 开源 OCR 引擎的用户特定手写 OCR 系统,用于即时(iJIT)信息检索。该系统利用用户单独的手写样本(孤立和自由流动式)训练定制语言模型,在五名用户自由流动文本标注上的字符识别准确率达到了 81.53% 至 92.88%。
Objective of the current work is to develop an Optical Character Recognition (OCR) engine for information Just In Time (iJIT) system that can be used for recognition of handwritten textual annotations of lower case Roman script. Tesseract open source OCR engine under Apache License 2.0 is used to develop user-specific handwriting recognition models, viz., the language sets, for the said system, where each user is identified by a unique identification tag associated with the digital pen. To generate the language set for any user, Tesseract is trained with labeled handwritten data samples of isolated and free-flow texts of Roman script, collected exclusively from that user. The designed system is tested on five different language sets with free- flow handwritten annotations as test samples. The system could successfully segment and subsequently recognize 87.92%, 81.53%, 92.88%, 86.75% and 90.80% handwritten characters in the test samples of five different users.
研究动机与目标
- 实现 iJIT 系统中手写文本标注的实时识别,以支持即时信息访问。
- 解决在自由流动书写风格下识别用户特定手写小写罗马字母文本的挑战。
- 利用 Tesseract 开发个性化 OCR 模型,以适应个体书写习惯。
- 提升数字笔式系统中动态、非约束手写标注的识别准确率。
- 在多位用户的不同手写样本上评估系统的性能表现。
提出的方法
- 在 Apache 许可证 2.0 下使用 Tesseract OCR 引擎,训练用户特定的手写识别模型。
- 仅从每位用户处收集标注的手写样本数据——包括孤立和自由流动式样本。
- 通过在其个人手写样本上训练 Tesseract,为每位用户生成独特的语言集。
- 应用分割技术,从自由流动手写标注中分离出单个字符或单词。
- 通过唯一数字笔标签实现用户识别,将输入与正确的语言模型关联。
- 使用来自五名不同用户的自由流动手写标注测试样本验证识别性能。
实验结果
研究问题
- RQ1Tesseract 是否能够有效微调以识别自由流动书写风格下的用户特定手写小写罗马字母?
- RQ2在使用孤立和自由流动样本训练的用户特定语言模型下,可实现多高的字符识别准确率?
- RQ3该系统在具有不同书写风格的多位用户中表现如何?
- RQ4将数字笔 ID 与用户特定 OCR 模型结合,能否实现实时、上下文感知的信息检索?
- RQ5训练数据类型(孤立 vs. 自由流动)对非约束手写识别性能有何影响?
主要发现
- 系统在一名用户上的字符识别准确率达到 87.92%,在五名测试用户中最低准确率为 81.53%。
- 对于书写风格独特且一致的用户,最高识别率达到 92.88%。
- 总体而言,系统对另外两名用户分别成功识别了 86.75% 和 90.80% 的字符,表明其在多种书写模式下具有鲁棒性。
- 使用用户特定语言模型显著提升了识别性能,相较于通用 OCR 模型表现更优。
- 自由流动手写标注被有效分割并识别,验证了该系统在真实 iJIT 应用中的适用性。
- 将数字笔 ID 与个性化 Tesseract 模型结合,实现了在动态环境中的准确、用户感知识别。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。