QUICK REVIEW

[논문 리뷰] Word level Script Identification from Bangla and Devanagri Handwritten Texts mixed with Roman Script

Ram Sarkar, Nibaran Das|arXiv (Cornell University)|2010. 02. 21.

Handwritten Text Recognition Techniques참고 문헌 18인용 수 25

한 줄 요약

이 논문은 뱅갈리 및 데바나가리 문자와 라틴 문자가 혼합된 수기 문서에서 단어 수준의 글자 종별 시스템을 제안한다. 글자 종속적이지 않은 인접 성분 분석을 사용하여 텍스트 줄과 단어를 추출한 후, 여덟 가지 통합적 특징으로 훈련된 다층 퍼셉트론 분류기를 적용하여, 별도의 뱅갈리-라틴 및 데바나가리-라틴 데이터셋에서 각각 99.29% 및 98.43%의 정확도를 달성한다.

ABSTRACT

India is a multi-lingual country where Roman script is often used alongside different Indic scripts in a text document. To develop a script specific handwritten Optical Character Recognition (OCR) system, it is therefore necessary to identify the scripts of handwritten text correctly. In this paper, we present a system, which automatically separates the scripts of handwritten words from a document, written in Bangla or Devanagri mixed with Roman scripts. In this script separation technique, we first, extract the text lines and words from document pages using a script independent Neighboring Component Analysis technique. Then we have designed a Multi Layer Perceptron (MLP) based classifier for script separation, trained with 8 different wordlevel holistic features. Two equal sized datasets, one with Bangla and Roman scripts and the other with Devanagri and Roman scripts, are prepared for the system evaluation. On respective independent text samples, word-level script identification accuracies of 99.29% and 98.43% are achieved.

연구 동기 및 목표

다국어 인도에서 흔히 발생하는 다국어 수기 문서에서 글자 종별 문제를 해결하기 위해, 특히 뱅갈리 또는 데바나가리 문자가 라틴 문자와 혼합된 경우에 초점을 맞춘다.
혼합 글자 종류 문서에서 개별 단어의 글자 종류를 정확히 식별하여, 글자 종별 수기 OCR 시스템을 개발한다.
기존 OCR 시스템이 혼합 글자 종류 콘텐츠에서 실패하는 한계를 극복하기 위해, 자동으로 단어 수준의 글자 종류 분리 기능을 제공한다.
실제 수기 혼합 글자 종류 데이터에서 높은 정확도로 글자 종별 시스템의 성능을 평가한다.

제안 방법

문서 이미지에서 글자 종속적이지 않은 인접 성분 분석 기법을 사용하여 텍스트 줄과 단어를 추출한다.
각 단어의 시각적 및 구조적 특징을 나타내기 위해 여덟 가지 통합적 단어 수준 특징을 추출한다.
추출된 특징을 바탕으로 다층 퍼셉트론(Multi Layer Perceptron, MLP) 분류기를 훈련하여 뱅갈리/라틴 및 데바나가리/라틴 글자 종류 쌍을 구분하도록 한다.
평가를 위해 두 개의 독립된 데이터셋을 구축한다: 하나는 뱅갈리와 라틴 문자로 구성되고, 다른 하나는 데바나가리와 라틴 문자로 구성된다.
시스템은 각 단어를 개별적으로 처리하여 혼합 문서에 존재하는 두 글자 종류 중 하나로 분류한다.
균형 잡힌 두 데이터셋에서 교차 검증을 사용하여 분류기를 훈련하고 테스트하여 강건성을 확보한다.

실험 결과

연구 질문

RQ1기계 학습 모델이 뱅갈리와 라틴 문자가 함께 존재하는 문서에서 개별 수기 단어의 글자 종류를 정확히 식별할 수 있는가?
RQ2통합적 특징을 사용한 다층 퍼셉트론 분류기는 수기 텍스트에서 데바나가리 문자와 라틴 문자를 얼마나 효과적으로 구분하는가?
RQ3글자 종속적이지 않은 텍스트 줄과 단어 추출 기법이 혼합 글자 종류 문서에서 정확한 글자 종별을 지원하는 데 얼마나 기여하는가?
RQ4훈련 데이터와 테스트 데이터가 글자 종류 쌍(뱅갈리-라틴 대비 데바나가리-라틴)에 따라 엄격히 분리된 경우, 단어 수준의 글자 종별에서 달성할 수 있는 정확도 수준은 어느 정도인가?

주요 결과

제안된 시스템은 뱅갈리 및 라틴 문자 데이터셋에서 단어 수준의 글자 종별 정확도가 99.29%에 이른다.
데바나가리 및 라틴 문자 데이터셋에서는 단어 수준의 정확도가 98.43%에 이른다.
여덟 가지 통합적 단어 수준 특징의 사용이 MLP 분류기의 구분 능력을 크게 향상시킨다.
글자 종속적이지 않은 인접 성분 분석 기법은 사전 글자 종류 지식 없이도 텍스트 줄과 단어를 효과적으로 추출한다.
MLP 분류기는 동일한 글자 종류 쌍에서의 새로운 혼합 글자 종류 샘플에 대해 강력한 일반화 능력을 보였다.
결과는 통합적 특징과 전방향 신경망의 조합이 다국어 수기 문서에서 단어 수준의 글자 종별에 매우 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.