QUICK REVIEW

[論文レビュー] Statistical Texture Features based Handwritten and Printed Text Classification in South Indian Documents

Mallikarjun Hangarge, KC Santosh|arXiv (Cornell University)|Mar 13, 2013

Handwritten Text Recognition Techniques参考文献 14被引用数 25

ひとこと要約

この論文では、南インドの script（カナダ文字、テルグ文字、マラヤーラム文字、デーヴァナガリー文字）における手書きおよび印刷済みテキストを単語レベルで分類する統計的テクスチャ特徴に基づくアプローチを提案する。平均、エントロピー、局所的範囲などの特徴を用いて、複数のデータセットでk-NN分類器を用いて平均分類精度99.26％を達成し、優れた性能とローマ字への拡張性を示している。

ABSTRACT

In this paper, we use statistical texture features for handwritten and printed text classification. We primarily aim for word level classification in south Indian scripts. Words are first extracted from the scanned document. For each extracted word, statistical texture features are computed such as mean, standard deviation, smoothness, moment, uniformity, entropy and local range including local entropy. These feature vectors are then used to classify words via k-NN classifier. We have validated the approach over several different datasets. Scripts like Kannada, Telugu, Malayalam and Hindi i.e., Devanagari are primarily employed where an average classification rate of 99.26% is achieved. In addition, to provide an extensibility of the approach, we address Roman script by using publicly available dataset and interesting results are reported.

研究の動機と目的

南インドの script（カナダ文字、テルグ文字、マラヤーラム文字、デーヴァナガリー文字）における手書きおよび印刷済みテキストを単語レベルで区別する堅牢な手法を開発すること。
統計的テクスチャ特徴がテキスト分類のための特徴的なパターンを効果的に捉えられるかを評価すること。
より広範な適用性を実現するため、公開データを用いてアプローチをローマ字に拡張すること。
カナダ文字、テルグ文字、マラヤーラム文字、ヒンディー語（デーヴァナガリー文字）を含む多様な南インドの script において高い分類精度を達成すること。
リソースが限られる script 環境における多言語ドキュメント解析のスケーラブルで拡張可能なフレームワークを提供すること。

提案手法

スキャンされた南インドのドキュメント画像から、前処理およびセグメンテーション技術を用いて個々の単語を抽出する。
平均、標準偏差、滑らかさ、モーメント、均一性、エントロピー、局所的範囲、局所的エントロピーを含む、一連の統計的テクスチャ特徴を各単語に対して計算する。
計算されたテクスチャ統計を用いて、各単語のテクスチャ的特徴を表す特徴ベクトルを構築する。
特徴ベクトルに基づいて、k-Nearest Neighbor (k-NN) 分類器を用いて手書きおよび印刷済みテキストを区別する。
カナダ文字、テルグ文字、マラヤーラム文字、デーヴァナガリー文字の手書きおよび印刷済みサンプルを含む複数のデータセットを用いて、手法の妥当性を検証する。
一般化能力を評価するため、公開データセットを用いてフレームワークをローマ字に拡張する。

実験結果

リサーチクエスチョン

RQ1統計的テクスチャ特徴は、南インドの script における手書きおよび印刷済みテキストを効果的に区別できるか？
RQ2提案手法の分類精度は、カナダ文字、テルグ文字、マラヤーラム文字などの多様な南インドの script でどの程度か？
RQ3公開データセットを用いた場合、ローマ字に適用した際にこの手法はどの程度一般化できるか？
RQ4多言語ドキュメント解析において、どのテクスチャ特徴が分類精度向上に最も寄与しているか？
RQ5複雑なディープラーニングアーキテクチャに依存せずに、テクスチャ特徴に基づくk-NN分類器が高精度を達成できるか？

主な発見

提案手法は、カナダ文字、テルグ文字、マラヤーラム文字、デーヴァナガリー文字（ヒンディー語）を含む複数の南インドの script で平均分類精度99.26％を達成した。
局所的エントロピーおよび局所的範囲特徴の使用により、微細なテクスチャ的変動を捉えることができ、分類性能が顕著に向上した。
k-NN分類器は未学習の単語サンプルに対しても優れた一般化性能を示し、選択されたテクスチャ特徴の堅牢性を裏付けた。
アプローチはローマ字に対しても効果的に一般化され、公開データセットで有望な結果を示した。これは、インドの script を超えた拡張可能性を示している。
平均、標準偏差、エントロピーなどの統計的テクスチャ特徴は、単語レベルでのテキストスタイルの区別に非常に特徴的なものである。
筆記スタイルのばらつきや印刷品質の違いに対しても、この手法は高い精度を維持しており、ノイズやドキュメントソースの多様性に対して耐性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。