Skip to main content
QUICK REVIEW

[논문 리뷰] Combining Morphological and Histogram based Text Line Segmentation in the OCR Context

Pit Schneider|arXiv (Cornell University)|2021. 03. 16.
Handwritten Text Recognition Techniques참고 문헌 9인용 수 2
한 줄 요약

이 논문은 고전적 신문의 정확하고 효율적인 OCR를 위해 형태학적 연산과 수평 히스토그램 투영을 조합한 하이브리드 텍스트 라인 세그멘테이션 방법인 COMBISEG을 제안한다. 이는 99.2%의 정확도와 평균 이미지당 17.08ms의 처리 시간을 달성하여 기준 성능을 보이는 BENCH보다 처리 속도에서 769.25ms에 비해 크게 뛰어나며, 열악한 품질의 이진화된 단일 열 텍스트 스캔에서도 높은 정밀도를 유지한다.

ABSTRACT

Text line segmentation is one of the pre-stages of modern optical character recognition systems. The algorithmic approach proposed by this paper has been designed for this exact purpose. Its main characteristic is the combination of two different techniques, morphological image operations and horizontal histogram projections. The method was developed to be applied on a historic data collection that commonly features quality issues, such as degraded paper, blurred text, or presence of noise. For that reason, the segmenter in question could be of particular interest for cultural institutions, that want access to robust line bounding boxes for a given historic document. Because of the promising segmentation results that are joined by low computational cost, the algorithm was incorporated into the OCR pipeline of the National Library of Luxembourg, in the context of the initiative of reprocessing their historic newspaper collection. The general contribution of this paper is to outline the approach and to evaluate the gains in terms of accuracy and speed, comparing it to the segmentation algorithm bundled with the used open source OCR software.

연구 동기 및 목표

  • 손상된 품질의 고전 신문 자료에 특화된 빠르고 정확한 텍스트 라인 세그멘테이션 방법을 개발하기 위해.
  • 학습 단계 없이도 실제 역사적 문서 데이터에서 뛰어난 내성성을 유지하면서도, 세그멘테이션 정확도를 훼손하지 않고도 처리 시간을 최소화하여 OCR 파이프라인의 계산 비용을 절감하기 위해.
  • BENCH와 같은 기존 오픈소스 OCR 도구가 노이즈가 많고 저품질의 스캔에서 처리 시간이 길고 라인 분할 오류가 발생하는 문제를 해결하기 위해.
  • 학습 단계 없이도 안정적인 성능을 보이며, 실제 역사적 문서 데이터에 강건한 경량의 비학습 기반 솔루션을 만들기 위해.
  • 특히 룩셈부르크 국립도서관의 신문 자료 재처리 프로젝트에 맞게 기존 OCR 파이프라인에 원활하게 통합될 수 있도록 하기 위해.

제안 방법

  • COMBISEG는 이진화된 입력 이미지(Ib)를 형태학적 연산을 통해 처리하며, 수평 구조 요소를 사용한 팽창 연산을 통해 끊어진 텍스트 성분을 연결한다.
  • 형태학적 처리된 이미지(Ip)에 수평 히스토그램 투영을 적용하여 텍스트 라인 위치에 해당하는 피크와 골을 탐지한다.
  • 히스토그램 피크 기반으로 바운딩 박스를 생성하며, 수직 중첩이 한 박스의 75% 이상이거나 두 박스 높이의 합의 50% 이상일 경우 인접한 박스를 병합하는 후처리 규칙을 적용한다.
  • 사전 처리 단계로 Otsu의 이진화를 사용하며, 단일 열, 수평으로 정렬된 텍스트이며 손글씨가 없음을 가정한다.
  • 복잡한 레이아웃 분석을 피하고 라인 수준의 세그멘테이션에 집중함으로써 계산 오버헤드를 최소화한다.
  • COMBISEG와 BENCH의 둘 다에서 동일한 수직 중첩 임계값을 사용하여 후처리를 통해 출력의 분할 상태를 정규화하여 공정한 비교를 가능하게 한다.

실험 결과

연구 질문

  • RQ1형태학적 기법과 히스토그램 투영을 조합한 하이브리드 접근 방식이 손상된 고전 신문 스캔에서 텍스트 라인 세그멘테이션 정확도를 향상시킬 수 있는가?
  • RQ2제안된 COMBISEG 방법이 BENCH 기준 대비 유의미하게 낮은 처리 시간을 확보하면서도 높은 정확도를 유지하는가?
  • RQ3형태학적 사전 처리와 히스토그램 분석의 조합이 노이즈, 흐린 텍스트, 라인 연결 오류 등의 문제를 어느 정도 완화하는가?
  • RQ4실제로 낮은 품질의 역사적 문서 데이터에서 COMBISEG는 BENCH에 비해 얼마나 뛰어난 내성성을 보이는가?
  • RQ5비학습 기반 방법이 단일 열 이진화 텍스트 세그멘테이션에서 학습 기반 대안에 비해 속도와 효율성 면에서 뛰어나게 성능을 낼 수 있는가?

주요 결과

  • 114,625장의 이미지에 대한 기준값 평가 결과 COMBISEG는 99.2%의 세그멘테이션 정확도를 달성했고, BENCH는 98.2%였다.
  • COMBISEG의 평균 처리 시간은 이미지당 17.08ms로, BENCH의 769.25ms 대비 97.8% 감소한 결과를 보였다.
  • 손상된 종이, 노이즈, 흐린 텍스트 환경에서도 뛰어난 내성성을 입증하여 임의의 양성 결과와 라인 병합 오류를 효과적으로 줄였다.
  • 후처리 규칙이 출력의 분할 상태를 성공적으로 정규화하여 COMBISEG와 BENCH 간의 공정한 비교를 가능하게 하였다.
  • 학습 단계 없이 설계된 COMBISEG는 모델 재학습이 필요 없어 변화하는 데이터를 가진 아카이브 시스템에 이상적이다.
  • 국립도서관의 신문 자료 재처리 프로젝트에 실제로 도입된 점을 통해, 대규모 역사적 문서 디지털화 프로젝트의 OCR 파이프라인에 잘 통합될 수 있음을 검증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.