[논문 리뷰] A Hough Transform based Technique for Text Segmentation
이 논문은 디지타이징된 이미지에서 텍스트 라인 및 단어 분할을 위한 허프 변환 기반 방법을 제안한다. 이 방법은 다중 스크립트 문서, 명함, 감시 영상 등 다양한 문서 유형에 효과적으로 적용되며, 문서 이미지에서는 85.7%, 명함에서는 94.6%, 감시 카메라 영상에서는 88%의 정확도를 기록하여 저해상도 및 복잡한 상황에서도 뛰어난 강건성을 입증한다.
Text segmentation is an inherent part of an OCR system irrespective of the domain of application of it. The OCR system contains a segmentation module where the text lines, words and ultimately the characters must be segmented properly for its successful recognition. The present work implements a Hough transform based technique for line and word segmentation from digitized images. The proposed technique is applied not only on the document image dataset but also on dataset for business card reader system and license plate recognition system. For standardization of the performance of the system the technique is also applied on public domain dataset published in the website by CMATER, Jadavpur University. The document images consist of multi-script printed and hand written text lines with variety in script and line spacing in single document image. The technique performs quite satisfactorily when applied on mobile camera captured business card images with low resolution. The usefulness of the technique is verified by applying it in a commercial project for localization of license plate of vehicles from surveillance camera images by the process of segmentation itself. The accuracy of the technique for word segmentation, as verified experimentally, is 85.7% for document images, 94.6% for business card images and 88% for surveillance camera images.
연구 동기 및 목표
- 다양한 문서 유형, 특히 다중 스크립트 및 저해상도 이미지에 적용 가능한 강건한 텍스트 분할 기법을 개발하는 것.
- 실제 응용에서 변동하는 스크립트 유형, 라인 간격, 이미지 품질로 인한 텍스트 분할 과제를 해결하는 것.
- 공개 데이터셋 및 라이선스 플레이트 인식, 명함 리더와 같은 실제 시스템에서의 방법 검증.
- 복잡한 촬영 조건에서 텍스트 라인과 단어의 정확한 분할을 가능하게 하여 OCR 시스템 성능을 향상시키는 것.
제안 방법
- 이 방법은 에지 픽셀을 매개변수 공간으로 변환하여 선분과 텍스트 경계를 탐지하기 위해 허프 변환을 활용한다.
- 주요 선 방향과 공간 클러스터를 식별하여 픽셀을 일관된 텍스트 라인으로 그룹화한다.
- 라인 간 간격 탐지 및 문장 간 간격 분석을 통해 단어 분할을 달성한다.
- 이 알고리즘은 이진 및 회색조 이미지를 모두 처리하며, 허프 변환 이전에 에지 검출 및 형태학적 연산을 활용한다.
- 스크립트에 특화된 특징이 아닌 구조적 패턴에 초점을 맞춤으로써 다중 스크립트 및 혼합 스크립트 문서에 적응한다.
- CMATER, 자다프푸르 대학 및 실제 응용에서의 데이터셋을 사용하여 표준 메트릭을 통해 성능 평가를 수행한다.
실험 결과
연구 질문
- RQ1변동하는 라인 간격을 가진 다중 스크립트 문서 이미지에서 허프 변환 기반 방법이 텍스트 라인과 단어를 효과적으로 분할할 수 있는가?
- RQ2기본 문서 이미지와 비교하여 모바일 카메라로 촬영한 저해상도 명함 이미지에서 제안된 방법의 성능은 어떠한가?
- RQ3단순 분할만으로도 감시 카메라 영상에서 라이선스 플레이트를 어느 정도 정확하게 국소화할 수 있는가?
- RQ4출력이 인쇄, 손글씨, 노이즈가 많은 입력을 포함한 다양한 촬영 조건에서의 정확도는 얼마인가?
주요 결과
- CMATER 데이터셋에서 확보한 표준 문서 이미지에서 이 방법은 85.7%의 단어 분할 정확도를 달성했다.
- 모바일 카메라로 촬영한 명함 이미지에서는 94.6%의 단어 분할 정확도를 기록하여 저해상도 환경에서도 뛰어난 성능을 입증했다.
- 감시 카메라 영상에서는 88%의 정확도로 단어 분할을 달성하여 실제 노이즈가 많은 환경에서도 효과적임을 입증했다.
- 이 기법은 감시 영상에서 라이선스 플레이트를 성공적으로 국소화하여 상용 응용 분야에서의 유용성을 검증했다.
- 허프 변환 기반 접근법은 다양한 스크립트와 이미지 품질에 걸쳐 강건성을 입증하였으며, 복잡한 상황에서 기존 방법보다 뛰어난 성능을 보였다.
- 스크립트에 특화된 특징이 아닌 기하학적 구조에 의존함으로써 이 방법은 다중 스크립트 문서에 대한 일반화 능력이 향상되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.