QUICK REVIEW

[논문 리뷰] FP-THD: Full page transcription of historical documents

H Neji, J Nogueras-Iso|arXiv (Cornell University)|2026. 01. 20.

Handwritten Text Recognition Techniques인용 수 0

한 줄 요약

FP-THD는 ParseNet 레이아웃 분석과 확장된 마스크드 오토인코더(MAE-ViT) OCR을 결합하여 필사 전체 페이지를 중세 라틴 문서에 대해 전사하는 파이프라인을 제안하며, 손으로 쓴 문자와 인쇄된 텍스트에 걸쳐 오래된 문자와 기호를 충실히 보존할 수 있습니다.

ABSTRACT

The transcription of historical documents written in Latin in XV and XVI centuries has special challenges as it must maintain the characters and special symbols that have distinct meanings to ensure that historical texts retain their original style and significance. This work proposes a pipeline for the transcription of historical documents preserving these special features. We propose to extend an existing text line recognition method with a layout analysis model. We analyze historical text images using a layout analysis model to extract text lines, which are then processed by an OCR model to generate a fully digitized page. We showed that our pipeline facilitates the processing of the page and produces an efficient result. We evaluated our approach on multiple datasets and demonstrate that the masked autoencoder effectively processes different types of text, including handwritten, printed and multi-language.

연구 동기 및 목표

오래된 문자와 기호를 보존하면서 전체 페이지 역사 문서를 전사하는 파이프라인을 개발한다.
OCR 이전에 텍스트 줄을 추출하기 위한 레이아웃 분석 모듈을 통합한다.
인쇄물, 손글씨 및 다언어 텍스트를 다룰 수 있도록 MAE-ViT 기반 OCR(MAE-ViT)을 확장한다.
PAGE XML 및 인간 친화적인 Markdown/TXT 표현을 포함한 산출물을 제공한다.
다양한 데이터셋에서 평가하고 역사적 활자 특징의 보존을 시연한다.

제안 방법

레이아웃 분석을 위한 ParseNet을 사용하여 기준선, 영역 및 행을 감지하고 PAGE-XML을 출력한다.
감지된 텍스트 줄을 OCR용으로 일관된 50픽셀 높이의 이미지로 자르고 정정한다.
포스트 프로세스 없이도 강건한 손글씨 및 인쇄 텍스트 인식을 위한 CNN 특징 추출기(ResNet-18)와 스팬 마스킹을 갖춘 확장 MAE-ViT OCR을 사용한다.
마스크 비율 0.4 및 최대 스팬 길이 8로 데이터셋별 라인 이미지에서 MAE-ViT를 학습하고 100k 반복을 수행한다.
PAGE-XML, Markdown, 일반 TXT 등 다운스트림 분석 및 OCR 성능 측정을 위한 다중 출력을 생성한다.

Figure 1: FP-THD architecture Overview: Layout Analysis and Masked Auto-encoder with Vision Transformer

실험 결과

연구 질문

RQ1전체 페이지 전사 파이프라인이 역사적 문자와 축약 형태를 현대화 없이 보존할 수 있는가?
RQ2레이아웃 분석 우선 접근 방식이 중세 라틴 문서의 전사 정확도를 얼마나 개선하는가?
RQ3HANDWRITTEN, PRINTED, 다언어 역사 텍스트에 대한 MAE-ViT 기반 OCR의 효과는 어떠한가?
RQ4파이프라인이 기계 판독 가능한 출력과 함께 사람이 주석을 달 수 있는(Markdown) 표현을 생성하는가?
RQ5FP-THD가 역사적 라틴 데이터셋에서 기존 전사 방법과 어떻게 비교되는가?

주요 결과

모델	CER (%)	WER (%)
BVPB [26]	0.3379	0.6835
Pero-OCR [20]	0.0242	0.2106
FP-THD	0.0178	0.0450

MAE-ViT 기반 OCR은 Rodrigo에서 CER 1.30% 및 WER 6.97%를 달성했고 Bentham에서 CER 4.46% 및 WER 7.68%를 달성했으며 포스트프로세싱 없이.
Molino 인쇄 텍스트 전사에 MAE-ViT로 검증 데이터 셋에서 CER 1.43% 및 WER 5.39%를 달성.
FP-THD가 Molino에서 CER(0.0178) 및 WER(0.0450) 면에서 Pero-OCR 및 ABBY 전사를 능가한다.
이 파이프라인은 중세 라틴 전사에 중요한 악센트 및 티들(tildes)을 보존한다.
ParseNet으로의 레이아웃 분석은 XML 및 텍스트 형식으로 정확한 전체 페이지 재구성을 가능하게 하는 구조화된 행 영역을 제공한다.

Figure 2: Example text lines by datasets.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.