[論文レビュー] Combining Morphological and Histogram based Text Line Segmentation in the OCR Context
本稿では、歴史的新聞の耐障害性・効率的なOCRを実現するため、形態的操作と水平ヒストグラムプロジェクションを組み合わせたハイブリッドなテキストラインセグメンテーション手法COMBISEGを提案する。本手法は1枚あたり平均17.08msの処理時間で99.2%の精度を達成し、ベンチマークBENCH(769.25ms)に比べて著しく高速でありながら、劣化した二値化済み単一カラムのテキストスキャンにおいても高い精度を維持している。
Text line segmentation is one of the pre-stages of modern optical character recognition systems. The algorithmic approach proposed by this paper has been designed for this exact purpose. Its main characteristic is the combination of two different techniques, morphological image operations and horizontal histogram projections. The method was developed to be applied on a historic data collection that commonly features quality issues, such as degraded paper, blurred text, or presence of noise. For that reason, the segmenter in question could be of particular interest for cultural institutions, that want access to robust line bounding boxes for a given historic document. Because of the promising segmentation results that are joined by low computational cost, the algorithm was incorporated into the OCR pipeline of the National Library of Luxembourg, in the context of the initiative of reprocessing their historic newspaper collection. The general contribution of this paper is to outline the approach and to evaluate the gains in terms of accuracy and speed, comparing it to the segmentation algorithm bundled with the used open source OCR software.
研究の動機と目的
- 劣化した品質の歴史的新聞コレクションに特化した、高速かつ高精度なテキストラインセグメンテーション手法の開発。
- 分類精度を損なわず処理時間を短縮することで、OCRパイプラインにおける計算コストの低減。
- BENCHのような既存のオープンソースOCRツールが、ノイズが多く低品質なスキャンにおいて高い処理時間と断片化を抱えるという問題点の是正。
- トレーニング段階を必要とせず、現実世界の歴史的文書データに対しても耐障害性を維持できる軽量で学習非依存のソリューションの構築。
- 特にルクセンブルク国立図書館の新聞再処理イニシアチブに適した、既存のOCRパイプラインへのシームレスな統合。
提案手法
- COMBISEGは、二値化済み入力画像(Ib)を、水平構造要素を用いた膨張処理を含む形態的操作で処理し、断たれたテキスト成分を接続する。
- 形態的操作処理済み画像(Ip)に対して水平ヒストグラムプロジェクションを適用し、テキストラインの位置に対応するピークと谷を検出する。
- ヒストグラムのピークに基づいてバウンディングボックスを生成し、垂直方向の重なり割合が1つのボックスの75%以上、または両者の合計高さの50%以上に達する場合、隣接するボックスを統合する後処理ルールを適用する。
- 前処理としてOtsuの二値化を用い、単一カラムで水平に整列したテキスト、かつ手書き文字を含まないと仮定する。
- レイアウト解析の複雑さを回避し、計算オーバーヘッドを低減するため、ラインレベルのセグメンテーションに特化する。
- COMBISEGおよびBENCHの両方の出力における断片化を、一貫した垂直重なり閾値を用いて後処理で正規化し、公平な比較を実現する。
実験結果
リサーチクエスチョン
- RQ1形態的操作とヒストグラムプロジェクションを組み合わせたハイブリッドアプローチが、劣化した歴史的新聞スキャンにおけるテキストラインセグメンテーション精度を向上させられるか?
- RQ2提案手法COMBISEGは、BENCHベンチマークに比べて顕著に処理時間を短縮しながらも、高い精度を維持できるか?
- RQ3形態的操作前処理とヒストグラム解析の組み合わせが、ノイズ、ぼやけた文字、ライン接続エラーなどの問題をどれほど軽減できるか?
- RQ4現実世界の低品質な歴史的文書データにおいて、COMBISEGはBENCHに比べてどれほど耐障害性に優れているか?
- RQ5学習非依存の手法が、単一カラムで二値化済みテキストのセグメンテーションにおいて、学習ベースの代替手法に比べて速度と効率性で優れるか?
主な発見
- 114,625枚の画像に対する正解ラベル評価に基づき、COMBISEGは99.2%のセグメンテーション精度を達成したのに対し、BENCHは98.2%であった。
- COMBISEGの平均処理時間は1枚あたり17.08msであり、BENCHの769.25msに比べて97.8%の短縮が達成された。
- 劣化した紙質、ノイズ、ぼやけた文字に対して優れた耐障害性を示し、誤検出やライン統合エラーを効果的に低減した。
- 後処理ルールにより出力の断片化が正常化され、COMBISEGとBENCHの間で公平な比較が可能になった。
- トレーニングを必要としない設計により、モデル再トレーニングの必要がなく、進化するデータを扱うアーカイブシステムに最適である。
- 国立図書館の新聞再処理イニシアチブへの実装が確認されたことから、大規模な歴史的文書デジタル化プロジェクトにおけるOCRパイプラインへの統合に適していることが裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。