QUICK REVIEW

[論文レビュー] FP-THD: Full page transcription of historical documents

H Neji, J Nogueras-Iso|arXiv (Cornell University)|Jan 20, 2026

Handwritten Text Recognition Techniques被引用数 0

ひとこと要約

FP-THDはParseNetレイアウト分析と拡張MAE-ViT OCRを組み合わせることで、中世ラテン語文書の全ページ書き起こしを実現し、手書き・印刷物の古い文字と記号を忠実に保存可能にします。

ABSTRACT

The transcription of historical documents written in Latin in XV and XVI centuries has special challenges as it must maintain the characters and special symbols that have distinct meanings to ensure that historical texts retain their original style and significance. This work proposes a pipeline for the transcription of historical documents preserving these special features. We propose to extend an existing text line recognition method with a layout analysis model. We analyze historical text images using a layout analysis model to extract text lines, which are then processed by an OCR model to generate a fully digitized page. We showed that our pipeline facilitates the processing of the page and produces an efficient result. We evaluated our approach on multiple datasets and demonstrate that the masked autoencoder effectively processes different types of text, including handwritten, printed and multi-language.

研究の動機と目的

古い文字や記号を保存しつつ、全ページの歴史的文書を転写するパイプラインを開発する。
OCR前提としてテキスト行を抽出するレイアウト分析モジュールを統合する。
印刷・手書き・多言語テキストを扱える拡張MAE-ViT OCRを開発する。
PAGE XMLと人間に優しいMarkdown/TXT表現を含む出力を提供する。
多様なデータセットで評価し、歴史的タイポグラフィ機能の保存を示す。

提案手法

ParseNetを用いてレイアウト分析を行い、ベースライン・領域・行を検出してPAGE-XMLを出力する。
検出したテキスト行をOCR用に均一な50ピクセル高の画像へ切り出し校正する。
CNN特徴抽出器(ResNet-18)を備えた拡張MAE-ViT OCRを用い、ポスト処理なしで手書き・印刷テキストを頑健に認識するスパンマスキングを適用する。
マスク比率0.4、最大スパン長8でデータセット固有の行画像を用いてMAE-ViTを100k反復で訓練する。
PAGE-XML・Markdown・プレーンTXTなど、下流解析とOCR性能評価のための複数出力を生成する。

Figure 1: FP-THD architecture Overview: Layout Analysis and Masked Auto-encoder with Vision Transformer

実験結果

リサーチクエスチョン

RQ1全ページ書き起こしパイプラインは歴史的文字や略語を現代化せずに保存できるか。
RQ2レイアウト分析を先に用いるアプローチは中世ラテン語文書の転写精度をどの程度向上させるか。
RQ3MAE-ViTベースのOCRは手書き・印刷・多言語の歴史的テキストでどの程度有効か。
RQ4パイプラインは機械可読出力だけでなく人間が注釈可能な表現（Markdown）を提供できるか。
RQ5FP-THDは歴史的ラテン語データセットに対して既存の転写法と比較してどうか。

主な発見

Model	CER (%)	WER (%)
BVPB [26]	0.3379	0.6835
Pero-OCR [20]	0.0242	0.2106
FP-THD	0.0178	0.0450

MAE-ViTベースのOCRはRodrigoでCER 1.30%、WER 6.97%、BenthamでCER 4.46%、WER 7.68%を達成し、ポスト処理なしである。
Molino印刷テキスト転写でMAE-ViTは検証データセットでCER 1.43%、WER 5.39%を達成。
FP-THDはMolinoにおけるCER (0.0178) および WER (0.0450) でPero-OCRとABBY転写を上回る。
パイプラインは中世ラテン語転写に重要な記音符やディアクリティックを保存する。
ParseNetによるレイアウト分析は構造化された行領域を提供し、XMLとテキスト形式への正確な全ページ再構成を実現する。

Figure 2: Example text lines by datasets.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。