[論文レビュー] Handwritten Bangla Digit Recognition Using Deep Learning
この論文は CMATERdb 3.1.1 上で手書き Bangla 数字認識のために複数のディープラーニングモデルを評価し、Gabor 特徴と dropout を用いた CNN が最高精度 98.78% を達成することを示しています。
In spite of the advances in pattern recognition technology, Handwritten Bangla Character Recognition (HBCR) (such as alpha-numeric and special characters) remains largely unsolved due to the presence of many perplexing characters and excessive cursive in Bangla handwriting. Even the best existing recognizers do not lead to satisfactory performance for practical applications. To improve the performance of Handwritten Bangla Digit Recognition (HBDR), we herein present a new approach based on deep neural networks which have recently shown excellent performance in many pattern recognition and machine learning applications, but has not been throughly attempted for HBDR. We introduce Bangla digit recognition techniques based on Deep Belief Network (DBN), Convolutional Neural Networks (CNN), CNN with dropout, CNN with dropout and Gaussian filters, and CNN with dropout and Gabor filters. These networks have the advantage of extracting and using feature information, improving the recognition of two dimensional shapes with a high degree of invariance to translation, scaling and other pattern distortions. We systematically evaluated the performance of our method on publicly available Bangla numeral image database named CMATERdb 3.1.1. From experiments, we achieved 98.78% recognition rate using the proposed method: CNN with Gabor features and dropout, which outperforms the state-of-the-art algorithms for HDBR.
研究の動機と目的
- 手書き Bangla 数字の認識を改善する動機づけ(書字スタイルのばらつきによる影響)
- 特徴エンジニアリングを広く行わずに、HBDR の深層学習手法(DBN,CNN バリアント)を比較する
- dropout および Gabor/フィルタ特徴が認識性能に及ぼす影響を評価する
- CMATERdb 3.1.1 における最先端手法と比較して強力なベースラインを確立する
提案手法
- CMATERdb 3.1.1 で Deep Belief Networks (DBN) と Convolutional Neural Networks (CNN) を評価する
- dropout、ガウスフィルタ、Gabor フィルタを含む CNN バリアントを検討する
- CNN アーキテクチャを記述する:2 つの畳み込み層、2 つのサブサンプリング層、1 つの全結合分類層
- 契約的発散学習を用いた RBM ベースの事前学習で DBN を構築する
- SVM や他の手法と比較するために複数回の学習とテストを行う
実験結果
リサーチクエスチョン
- RQ1異なる深層学習アーキテクチャ(DBN 対 CNN)は Bangla 数字の HBDR においてどのように性能を示すか?
- RQ2 dropout の適用と Gabor または Gaussian フィルタの使用は CNN ベースの HBDR の性能を改善するか?
- RQ3最良の DL アプローチは CMATERdb 3.1.1 における最先端手法とどのように比較されるか?
主な発見
| 手法 | 精度 |
|---|---|
| SVM | 95.50% |
| DBN | 97.20% |
| CNN + Gaussian | 97.70% |
| CNN + Gabor | 98.30% |
| CNN + Gaussian + Dropout | 98.64% |
| CNN + Gabor + Dropout | 98.78% |
- CNN の Gabor 特徴と dropout は最高の報告精度 98.78% を達成。
- ランダム Gaussian フィルタを用いた CNN は 97.70%、Gabor を用いた CNN は 98.30%。
- dropout と Gaussian フィルタを組み合わせた CNN は 98.64% の精度で標準 CNN を上回る。
- DBN は 97.20% の精度を達成し、SVM の 95.50% を上回る。
- 評価された手法の中で、Gabor + Dropout を組み合わせた CNN が同一データセット上で最先端手法を上回る。
- CNN ベースのアプローチは CMATERdb 3.1.1 の HBDR で従来の非 DL 手法を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。