QUICK REVIEW

[論文レビュー] Sparse arrays of signatures for online character recognition

Benjamin Graham|arXiv (Cornell University)|Aug 1, 2013

Handwritten Text Recognition Techniques参考文献 12被引用数 89

ひとこと要約

この論文では、ペンの動きの軌跡の反復積分であるパス・シグネチャを、畳み込みニューラルネットワーク（CNN）を用いたオンライン文字認識のスパースで高次元の特徴として使用することを提案する。ペンの位置、方向、曲率をスパースな3次元入力テンソルに符号化することで、より深い、より正確なCNNの利用が可能になる。CASIA-OLHWDB1.1中国語文字データセットにおいて、従来の手法の5.61%と比較して、3.58%というテスト誤差を達成した。

ABSTRACT

In mathematics the signature of a path is a collection of iterated integrals, commonly used for solving differential equations. We show that the path signature, used as a set of features for consumption by a convolutional neural network (CNN), improves the accuracy of online character recognition---that is the task of reading characters represented as a collection of paths. Using datasets of letters, numbers, Assamese and Chinese characters, we show that the first, second, and even the third iterated integrals contain useful information for consumption by a CNN. On the CASIA-OLHWDB1.1 3755 Chinese character dataset, our approach gave a test error of 3.58%, compared with 5.61% for a traditional CNN [Ciresan et al.]. A CNN trained on the CASIA-OLHWDB1.0-1.2 datasets won the ICDAR2013 Online Isolated Chinese Character recognition competition. Computationally, we have developed a sparse CNN implementation that make it practical to train CNNs with many layers of max-pooling. Extending the MNIST dataset by translations, our sparse CNN gets a test error of 0.31%.

研究の動機と目的

数学的パス・シグネチャを用いた入力表現の向上により、オンライン文字認識の精度を向上させること。
高解像度の文字データに対する深層CNNの学習における計算制限を、パス・シグネチャ特徴のスパarsityに着目することで解決すること。
3次までの高次の反復積分が、一般化に役立つ判別的な情報を含んでいることを示すこと。
入力特徴のスパarsityを活用したスパースCNN実装を開発することで、マックスプーリング層を多数設けたより深いCNNの学習を可能にすること。
最小限のデータ拡張で、中国語、アサイアス語、ラテン文字など多様なデータセットで最先端の性能を達成すること。

提案手法

ペンのストローク軌跡の反復積分（最大次数 $ m $ まで）を計算し、高次元の特徴表現を生成する。
各文字をサイズ $ N \times N \times M $ のスパース3次元テンソルとして表現する。ここで $ M = 1 + 2 + 2^2 + \dots + 2^m $ であり、非ゼロ値はストロークの経路にのみ存在する。
スパース入力を効率的に処理できるように設計されたスパースCNNアーキテクチャ（DeepCNet）を用い、非ゼロ活性化をメモ化することで、コンボリューション層とマックスプーリング層を交互に配置する。
学習中にアフィン変換（スケーリング、回転、平行移動）を用いたデータ拡張を適用し、一般化性能を向上させる。
正則化を図り、過学習を低減するために、異なる層に0.1から0.5の範囲でドロップアウトを適用する。
入力サイズ $ N \approx 3n $（$ n $ は文字のスケール）を設定することで、ネットワークの受容領域とパスの多様性を確保し、ネットワークの深さを最適化する。

実験結果

リサーチクエスチョン

RQ11次、2次、3次の高次のパス・シグネチャ（反復積分）は、標準的な画像ベースの表現を超えて、オンライン文字認識における一般化性能を向上させることができるか？
RQ2入力テンソルのスパarsityは、スパースな実装が可能であるため、密度型実装では実現不可能なほど多くのマックスプーリング層を持つより深いCNNの学習を可能にするのか？
RQ3シグネチャの切断レベル $ m $ を増加させた場合、認識精度にどのような影響があり、より高い $ m $ の計算コストは正当化されるか？
RQ4シグネチャベースの入力で学習されたスパースCNNは、CASIA-OLHWDB1.1のような困難なデータセットにおいて、密度型CNNを上回る性能を示すか？
RQ5パス・シグネチャとスパースCNNの組み合わせは、ラテン文字、アラビア数字、アサイアス語、中国語など多様な書写体系において有効であるか？

主な発見

CASIA-OLHWDB1.1データセットにおいて、提案手法は5.61%の従来手法と比較して、3.58%というテスト誤差を達成した。
183クラスのアサイアス語データセットにおいて、$ m $ を0から3に増加させたところ、$ k=15 $ 個の訓練サンプルでテスト誤差が48.9%から34.8%に低下した。
データ拡張を適用した結果、アサイアス語データセットのテスト誤差は $ m=3 $ 時に11.0%まで低下し、シグネチャ特徴とデータ拡張の両方の利点が明確に示された。
Pendigitsデータセットでは、$ m $ を0から3に増加させたところ、小さなネットワークでテスト誤差が3.37%から1.09%に低下し、より大きなネットワークと拡張を組み合わせると0.40%まで低下した。
スパースCNN実装により、初期層の計算コストが非ゼロ入力領域に限定されることで削減され、最大6段階のマックスプーリングを備えた深層ネットワークの実装が可能になった。
層ごとに0.1から0.5へ段階的に増加させるドロップアウトを追加したことで、CASIAデータセットのテスト誤差は4.01%から3.58%に低下し、効果的な正則化が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。