Skip to main content
QUICK REVIEW

[论文解读] Sparse arrays of signatures for online character recognition

Benjamin Graham|arXiv (Cornell University)|Aug 1, 2013
Handwritten Text Recognition Techniques参考文献 12被引用 89
一句话总结

该论文提出使用路径签名——笔画轨迹的迭代积分——作为卷积神经网络(CNN)进行在线字符识别的稀疏高维特征。通过将笔的位置、方向和曲率编码为稀疏的3D输入张量,该方法使更深、更准确的CNN成为可能;在CASIA-OLHWDB1.1中文字符数据集上,测试误差达到3.58%,显著优于先前工作的5.61%。

ABSTRACT

In mathematics the signature of a path is a collection of iterated integrals, commonly used for solving differential equations. We show that the path signature, used as a set of features for consumption by a convolutional neural network (CNN), improves the accuracy of online character recognition---that is the task of reading characters represented as a collection of paths. Using datasets of letters, numbers, Assamese and Chinese characters, we show that the first, second, and even the third iterated integrals contain useful information for consumption by a CNN. On the CASIA-OLHWDB1.1 3755 Chinese character dataset, our approach gave a test error of 3.58%, compared with 5.61% for a traditional CNN [Ciresan et al.]. A CNN trained on the CASIA-OLHWDB1.0-1.2 datasets won the ICDAR2013 Online Isolated Chinese Character recognition competition. Computationally, we have developed a sparse CNN implementation that make it practical to train CNNs with many layers of max-pooling. Extending the MNIST dataset by translations, our sparse CNN gets a test error of 0.31%.

研究动机与目标

  • 通过使用数学路径签名增强输入表示,提升在线字符识别的准确性。
  • 通过利用路径签名特征中的稀疏性,解决高分辨率字符数据训练深层CNN的计算限制。
  • 证明高阶迭代积分(最高至三阶)包含有助于泛化的判别性信息。
  • 通过开发一种利用输入特征稀疏性的稀疏CNN实现,使能够训练具有大量池化层的深层CNN。
  • 在包括中文、阿萨姆文和拉丁文字在内的多样化数据集上,实现最先进性能,且仅使用极少的数据增强。

提出的方法

  • 计算笔画轨迹的路径签名,作为最高阶 $ m $ 的迭代积分,以生成高维特征表示。
  • 将每个字符表示为大小为 $ N \times N \times M $ 的稀疏3D张量,其中 $ M = 1 + 2 + 2^2 + \dots + 2^m $,非零值仅出现在笔画路径上。
  • 使用稀疏CNN架构(DeepCNet),采用交替的卷积和池化层,通过缓存非零激活值,高效处理稀疏输入。
  • 通过仿射变换(缩放、旋转、平移)进行数据增强,以提升泛化能力。
  • 在不同层应用dropout(0.1至0.5),以正则化网络并减少过拟合。
  • 通过设置输入大小 $ N \approx 3n $($ n $ 为字符尺度),优化网络深度,以确保感受野充分且路径多样性足够。

实验结果

研究问题

  • RQ1高阶路径签名(一阶、二阶、三阶迭代积分)是否能在标准图像表示之外,提升在线字符识别的泛化能力?
  • RQ2输入张量中的稀疏性如何使能够训练比密集实现更深层的CNN,且具有更多池化层?
  • RQ3增加签名截断阶数 $ m $ 对识别准确率有何影响?更高 $ m $ 的计算成本是否合理?
  • RQ4基于签名输入的稀疏CNN是否能在CASIA-OLHWDB1.1等挑战性数据集上超越密集CNN?
  • RQ5路径签名与稀疏CNN的结合是否在多种书写系统(包括拉丁文、阿拉伯数字、阿萨姆文和中文)中均有效?

主要发现

  • 在CASIA-OLHWDB1.1数据集上,所提方法的测试误差为3.58%,而先前工作使用密集CNN的误差为5.61%。
  • 在包含183个类别的阿萨姆文数据集中,当 $ m $ 从0增加到3时,使用 $ k=15 $ 个训练样本,测试误差从48.9%降至34.8%。
  • 通过数据增强,阿萨姆文数据集的测试误差在 $ m=3 $ 时降至11.0%,表明签名特征与数据增强的协同增益。
  • 在Pendigits数据集中,当 $ m $ 从0增至3时,小网络的测试误差从3.37%降至1.09%,而大网络结合增强后进一步降至0.40%。
  • 稀疏CNN实现通过仅关注输入中的非零区域,显著降低了早期层的计算成本,使具有最多6层池化层的深层网络成为可能。
  • 在CASIA数据集上,通过在不同层逐步增加dropout率(从0.1到0.5),测试误差从4.01%降至3.58%,表明正则化效果显著。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。