QUICK REVIEW

[論文レビュー] Word level Script Identification from Bangla and Devanagri Handwritten Texts mixed with Roman Script

Ram Sarkar, Nibaran Das|arXiv (Cornell University)|Feb 21, 2010

Handwritten Text Recognition Techniques参考文献 18被引用数 25

ひとこと要約

本稿では、バングラ文字およびデヴァナガリ文字がラテン文字と混合された手書き文書における単語レベルのスクリプト識別システムを提案する。テキストラインおよび単語抽出にはスクリプトに依存しない隣接成分分析を用い、8つの包括的特徴に基づいてトレーニングされたマルチレイヤーパーセプトロン分類器を適用することで、別々のバングラ-ラテンおよびデヴァナガリ-ラテンデータセットにおいて、それぞれ99.29%および98.43%の正確性を達成した。

ABSTRACT

India is a multi-lingual country where Roman script is often used alongside different Indic scripts in a text document. To develop a script specific handwritten Optical Character Recognition (OCR) system, it is therefore necessary to identify the scripts of handwritten text correctly. In this paper, we present a system, which automatically separates the scripts of handwritten words from a document, written in Bangla or Devanagri mixed with Roman scripts. In this script separation technique, we first, extract the text lines and words from document pages using a script independent Neighboring Component Analysis technique. Then we have designed a Multi Layer Perceptron (MLP) based classifier for script separation, trained with 8 different wordlevel holistic features. Two equal sized datasets, one with Bangla and Roman scripts and the other with Devanagri and Roman scripts, are prepared for the system evaluation. On respective independent text samples, word-level script identification accuracies of 99.29% and 98.43% are achieved.

研究の動機と目的

多言語のインドで一般的に見られる、バングラまたはデヴァナガリスクリプトがラテンスクリプトと混合された多言語手書き文書におけるスクリプト識別の課題に対処すること。
混合スクリプト文書内の個々の単語のスクリプトを正確に特定することで、スクリプト固有の手書きOCRシステムの開発を図ること。
既存のOCRシステムが混合スクリプトコンテンツで失敗するという限界を克服し、自動的かつ単語レベルでのスクリプト分離を可能にすること。
実世界の手書き混合スクリプトデータに対して、高い正確性を達成するスクリプト識別システムの性能を評価すること。

提案手法

ドキュメント画像から、スクリプトに依存しない隣接成分分析技術を用いてテキストラインおよび単語を抽出する。
各単語の視覚的および構造的特徴を表すために、8つの包括的単語レベル特徴を抽出する。
抽出された特徴に基づき、マルチレイヤーパーセプトロン（MLP）分類器をトレーニングし、バングラ/ラテンおよびデヴァナガリ/ラテンスクリプトペアを区別する。
評価のため、バングラとラテンスクリプトを含むデータセットと、デヴァナガリとラテンスクリプトを含むデータセットの2つの独立したデータセットを作成する。
システムは各単語を個別に処理し、混合文書に存在する2つのスクリプトのうちの1つに分類する。
2つのバランスの取れたデータセット上で交差検証を用いて分類器をトレーニングおよびテストすることで、耐障害性を確保する。

実験結果

リサーチクエスチョン

RQ1機械学習モデルは、バングラとラテンスクリプトが共存する文書における個々の手書き単語のスクリプトを正確に識別できるか？
RQ2包括的特徴を用いたマルチレイヤーパーセプトロン分類器は、手書きテキストにおけるデヴァナガリとラテンスクリプトをどれほど効果的に区別できるか？
RQ3スクリプトに依存しないテキストラインおよび単語抽出技術は、混合スクリプト文書における正確なスクリプト識別をどの程度支援できるか？
RQ4トレーニングデータとテストデータがスクリプトペア（バングラ-ラテン対デヴァナガリ-ラテン）で厳密に分離された場合、単語レベルのスクリプト識別でどの程度の正確性が達成できるか？

主な発見

提案されたシステムは、バングラとラテンスクリプトのデータセットにおいて、単語レベルのスクリプト識別正確性が99.29%に達した。
デヴァナガリとラテンスクリプトのデータセットでは、単語レベルの正確性が98.43%に達した。
8つの包括的単語レベル特徴の使用により、MLP分類器の識別力が顕著に向上した。
スクリプトに依存しない隣接成分分析技術は、事前のスクリプト知識なしにテキストラインおよび単語を効果的に抽出できた。
MLP分類器は、同じスクリプトペアに属する未学習の混合スクリプトサンプルに対しても、優れた一般化性能を示した。
結果から、包括的特徴と順方向ニューラルネットワークを組み合わせたアプローチが、多言語手書き文書における単語レベルのスクリプト識別に極めて効果的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。