QUICK REVIEW

[论文解读] Sparse arrays of signatures for online character recognition

Benjamin Graham|arXiv (Cornell University)|Aug 1, 2013

Handwritten Text Recognition Techniques参考文献 12被引用 89

一句话总结

该论文提出使用路径签名——笔画轨迹的迭代积分——作为卷积神经网络（CNN）进行在线字符识别的稀疏高维特征。通过将笔的位置、方向和曲率编码为稀疏的3D输入张量，该方法使更深、更准确的CNN成为可能；在CASIA-OLHWDB1.1中文字符数据集上，测试误差达到3.58%，显著优于先前工作的5.61%。

ABSTRACT

In mathematics the signature of a path is a collection of iterated integrals, commonly used for solving differential equations. We show that the path signature, used as a set of features for consumption by a convolutional neural network (CNN), improves the accuracy of online character recognition---that is the task of reading characters represented as a collection of paths. Using datasets of letters, numbers, Assamese and Chinese characters, we show that the first, second, and even the third iterated integrals contain useful information for consumption by a CNN. On the CASIA-OLHWDB1.1 3755 Chinese character dataset, our approach gave a test error of 3.58%, compared with 5.61% for a traditional CNN [Ciresan et al.]. A CNN trained on the CASIA-OLHWDB1.0-1.2 datasets won the ICDAR2013 Online Isolated Chinese Character recognition competition. Computationally, we have developed a sparse CNN implementation that make it practical to train CNNs with many layers of max-pooling. Extending the MNIST dataset by translations, our sparse CNN gets a test error of 0.31%.

研究动机与目标

通过使用数学路径签名增强输入表示，提升在线字符识别的准确性。
通过利用路径签名特征中的稀疏性，解决高分辨率字符数据训练深层CNN的计算限制。
证明高阶迭代积分（最高至三阶）包含有助于泛化的判别性信息。
通过开发一种利用输入特征稀疏性的稀疏CNN实现，使能够训练具有大量池化层的深层CNN。
在包括中文、阿萨姆文和拉丁文字在内的多样化数据集上，实现最先进性能，且仅使用极少的数据增强。

提出的方法

计算笔画轨迹的路径签名，作为最高阶 $ m $ 的迭代积分，以生成高维特征表示。
将每个字符表示为大小为 $ N \times N \times M $ 的稀疏3D张量，其中 $ M = 1 + 2 + 2^2 + \dots + 2^m $，非零值仅出现在笔画路径上。
使用稀疏CNN架构（DeepCNet），采用交替的卷积和池化层，通过缓存非零激活值，高效处理稀疏输入。
通过仿射变换（缩放、旋转、平移）进行数据增强，以提升泛化能力。
在不同层应用dropout（0.1至0.5），以正则化网络并减少过拟合。
通过设置输入大小 $ N \approx 3n $（$ n $ 为字符尺度），优化网络深度，以确保感受野充分且路径多样性足够。

实验结果

研究问题

RQ1高阶路径签名（一阶、二阶、三阶迭代积分）是否能在标准图像表示之外，提升在线字符识别的泛化能力？
RQ2输入张量中的稀疏性如何使能够训练比密集实现更深层的CNN，且具有更多池化层？
RQ3增加签名截断阶数 $ m $ 对识别准确率有何影响？更高 $ m $ 的计算成本是否合理？
RQ4基于签名输入的稀疏CNN是否能在CASIA-OLHWDB1.1等挑战性数据集上超越密集CNN？
RQ5路径签名与稀疏CNN的结合是否在多种书写系统（包括拉丁文、阿拉伯数字、阿萨姆文和中文）中均有效？

主要发现

在CASIA-OLHWDB1.1数据集上，所提方法的测试误差为3.58%，而先前工作使用密集CNN的误差为5.61%。
在包含183个类别的阿萨姆文数据集中，当 $ m $ 从0增加到3时，使用 $ k=15 $ 个训练样本，测试误差从48.9%降至34.8%。
通过数据增强，阿萨姆文数据集的测试误差在 $ m=3 $ 时降至11.0%，表明签名特征与数据增强的协同增益。
在Pendigits数据集中，当 $ m $ 从0增至3时，小网络的测试误差从3.37%降至1.09%，而大网络结合增强后进一步降至0.40%。
稀疏CNN实现通过仅关注输入中的非零区域，显著降低了早期层的计算成本，使具有最多6层池化层的深层网络成为可能。
在CASIA数据集上，通过在不同层逐步增加dropout率（从0.1到0.5），测试误差从4.01%降至3.58%，表明正则化效果显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。