Skip to main content
QUICK REVIEW

[논문 리뷰] Handwritten Arabic Numeral Recognition using a Multi Layer Perceptron

Nibaran Das, Ayatullah Faruk Mollah|arXiv (Cornell University)|2010. 03. 09.
Handwritten Text Recognition Techniques참고 문헌 5인용 수 27
한 줄 요약

이 논문은 수작업으로 작성된 아랍 숫자 인식을 위한 다층 퍼셉트론(MLP) 분류기를 제안하며, 숫자 이미지에서 추출한 88개의 고유 기능(72개의 샤프트 기능과 16개의 옥턴트 기능)을 사용한다. 3,000개 샘플로 구성된 데이터셋에서 3중 교차 검증을 통해 평가한 결과, 평균 인식 정확도가 94.93%에 도달하여 아랍 숫자 OCR 응용 분야에서 뛰어난 성능을 보였다.

ABSTRACT

Handwritten numeral recognition is in general a benchmark problem of Pattern Recognition and Artificial Intelligence. Compared to the problem of printed numeral recognition, the problem of handwritten numeral recognition is compounded due to variations in shapes and sizes of handwritten characters. Considering all these, the problem of handwritten numeral recognition is addressed under the present work in respect to handwritten Arabic numerals. Arabic is spoken throughout the Arab World and the fifth most popular language in the world slightly before Portuguese and Bengali. For the present work, we have developed a feature set of 88 features is designed to represent samples of handwritten Arabic numerals for this work. It includes 72 shadow and 16 octant features. A Multi Layer Perceptron (MLP) based classifier is used here for recognition handwritten Arabic digits represented with the said feature set. On experimentation with a database of 3000 samples, the technique yields an average recognition rate of 94.93% evaluated after three-fold cross validation of results. It is useful for applications related to OCR of handwritten Arabic Digit and can also be extended to include OCR of handwritten characters of Arabic alphabet.

연구 동기 및 목표

  • 형체와 크기의 변동성이 뚜렷한 수작업 아랍 숫자 인식 문제를 해결하기 위해.
  • 아랍 수작업 숫자에 특화된 강력한 기능 표현 방식을 개발하기 위해.
  • 전용 아랍 숫자 데이터셋에서 다층 퍼셉트론(MLP) 분류기의 성능을 평가하기 위해.
  • 전체 아랍 문자 인식으로의 확장을 위한 기반을 마련하기 위해.

제안 방법

  • 수작업 숫자의 공간적 및 구조적 패턴을 포착하기 위해 72개의 샤프트 기능과 16개의 옥턴트 기능을 포함한 총 88개의 기능 세트를 설계함.
  • 샤프트 기능은 숫자 이미지를 여러 방향으로 투영하여 윤곽선과 선 분포를 포착함.
  • 옥턴트 기능은 숫자의 중심을 기준으로 8개의 방향 섹터에 걸쳐 픽셀 강도 분포를 유도함.
  • 추출된 기능 벡터를 바탕으로 숫자를 분류하기 위해 백프로파게이션 학습을 사용하는 다층 퍼셉트론(MLP)을 훈련함.
  • 다중 클래스 분류를 위해 은닉층을 포함한 피드포워드 아키텍처와 소프트맥스 출력층을 사용함.
  • 모델 성능은 일반화 능력과 견고성을 확보하기 위해 3중 교차 검증을 통해 평가됨.

실험 결과

연구 질문

  • RQ1샤프트 기능과 옥턴트 기능의 조합이 분류를 위해 수작업 아랍 숫자를 효과적으로 표현할 수 있는가?
  • RQ2다층 퍼셉트론은 다른 방법들과 비교해 수작업 아랍 숫자 인식에서 얼마나 잘 성능을 내는가?
  • RQ3제안된 시스템의 인식 정확도는 3,000개의 수작업 아랍 숫자 샘플로 구성된 다양한 데이터셋에서 얼마인가?
  • RQ4제안된 기능 세트는 다른 수작업 아랍 문자 인식 작업으로 일반화될 수 있는 정도는 어느 정도인가?

주요 결과

  • 제안된 88개 기능(72개의 샤프트 기능과 16개의 옥턴트 기능)은 수작업 아랍 숫자의 구조적 및 공간적 특성을 효과적으로 포착함.
  • 3중 교차 검증을 거친 후 3,000개 샘플 데이터셋에서 다층 퍼셉트론 분류기가 94.93%의 인식 정확도를 달성함.
  • 높은 인식률은 아랍 숫자 인식 분야에서 기능 설계와 분류기 조합의 효과성을 입증함.
  • 전체 아랍 스크립트 수작업 문자 인식으로의 확장 가능성도 보여줌.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.