Skip to main content
QUICK REVIEW

[論文レビュー] Recognition of Handwritten Bangla Basic Characters and Digits using Convex Hull based Feature Set

Nibaran Das, Sandip Pramanik|arXiv (Cornell University)|Jan 1, 2009
Handwritten Text Recognition Techniques参考文献 17被引用数 39
ひとこと要約

本稿では、分離された手書きバングラ文字および数字の認識を向上させるために、125の属性を有する新しい凸包ベースの特徴セットを提案する。マルチレイヤーパーセプトロン(MLP)分類器を用いた手法により、バングラ文字では76.86%、数字では12,000件のスケールデータセットで99.45%の認識率を達成し、凸包から導出されたトポロジカル特徴がバングラOCRにおいて有効であることを示している。

ABSTRACT

In dealing with the problem of recognition of handwritten character patterns of varying shapes and sizes, selection of a proper feature set is important to achieve high recognition performance. The current research aims to evaluate the performance of the convex hull based feature set, i.e. 125 features in all computed over different bays attributes of the convex hull of a pattern, for effective recognition of isolated handwritten Bangla basic characters and digits. On experimentation with a database of 10000 samples, the maximum recognition rate of 76.86% is observed for handwritten Bangla characters. For Bangla numerals the maximum success rate of 99.45%. is achieved on a database of 12000 sample. The current work validates the usefulness of a new kind of feature set for recognition of handwritten Bangla basic characters and numerals.

研究の動機と目的

  • 分離された手書きバングラ文字および数字認識のための堅牢な特徴セットの開発。
  • 新たに提案された凸包ベース特徴セットが形状の変動をどのように捉えられるかを評価すること。
  • スケーラブルで計算的に効率的な手法を用いて、バングラ数字および基本文字の高い認識正確さを達成すること。
  • 凸包から導出されるトポロジカル特徴を通じて、筆跡スタイルのばらつきの課題に対処すること。
  • 局所的サブ画像解析とグローバルな凸包特徴を組み合わせることで、パターン表現を向上させることの有効性を検証すること。

提案手法

  • 凸包は、O(n log n)の計算量を有するグラハムスキャン法を用いて各手書き文字画像に対して計算される。
  • 凸包構造内の湾曲部(ベイ)と湖(レイク)に基づいて、125のトポロジカル特徴が抽出される。
  • 各文字画像は、凸包の重心を基準に4つのサブ画像に分割され、局所的な形状の詳細が捉えられる。
  • 各サブ画像に対して再び凸包が計算され、局所的なトポロジカル特徴が抽出される。
  • 学習率0.8、モーメンタム0.7を用いたバックプロパゲーションで、1層の隠れ層を持つマルチレイヤーパーセプトロン(MLP)が訓練される。
  • システムは、バングラ文字10,000件および数字12,000件のデータセットを用い、ランダムなトレーニング・テスト分割で評価される。

実験結果

リサーチクエスチョン

  • RQ1凸包ベースのトポロジカル特徴は、手書きバングラ文字および数字の形状変動を効果的に表現できるか?
  • RQ2提案された特徴セットは、既存の特徴セットと比較して認識正確さで優れているか?
  • RQ3バングラ手書きデータに対する認識性能を最大化するための最適な隠れニューロン数は何か?
  • RQ4サブ画像セグメンテーションと局所的凸包解析は、グローバル凸包特徴に比べて認識性能をどの程度向上させるか?
  • RQ5拒否機構を用いずに、提案手法は高い正確さを達成できるか?

主な発見

  • 提案された凸包ベース特徴セットは、MLPに60個の隠れニューロンを用いることで、バングラ基本文字の認識率が最大76.86%に達した。
  • 数字の認識では、MLPに40個の隠れニューロンを用いることで、ピーク認識率99.45%を達成した。
  • 60個の隠れニューロンを超えると、文字認識率は plateau に達し、わずかに低下した。これは、この点以降で過学習が生じていることを示している。
  • 数字の認識率は、複数の隠れニューロン数にわたり常に99%以上を維持しており、高いロバスト性を示している。
  • 同じ文字データベース上で、従来の手法を上回り、類似の先行研究が存在しないことから、数字認識分野で新たなベンチマークを確立した。
  • サブ画像解析と凸包トポロジーの統合は、特に複雑な文字形状において、特徴表現を顕著に向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。