[論文レビュー] You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine
この論文は、YALTAiを提案する。これは、Krakenのピクセルベースのレイアウトセグメンテーションを、等角境界ボックスを用いたYOLOv5オブジェクト検出に置き換える手法であり、小規模な歴史的文書データセットにおいて、正確性と速度を顕著に向上させる。YALTAiは、Krakenと比較してカラム検出性能を最大100倍改善し、メイン本文検出スコアを倍増させる。また、新規のオープンソースパッケージと2つのベンチマークデータセットを提供する。
Layout Analysis (the identification of zones and their classification) is the first step along line segmentation in Optical Character Recognition and similar tasks. The ability of identifying main body of text from marginal text or running titles makes the difference between extracting the work full text of a digitized book and noisy outputs. We show that most segmenters focus on pixel classification and that polygonization of this output has not been used as a target for the latest competition on historical document (ICDAR 2017 and onwards), despite being the focus in the early 2010s. We propose to shift, for efficiency, the task from a pixel classification-based polygonization to an object detection using isothetic rectangles. We compare the output of Kraken and YOLOv5 in terms of segmentation and show that the later severely outperforms the first on small datasets (1110 samples and below). We release two datasets for training and evaluation on historical documents as well as a new package, YALTAi, which injects YOLOv5 in the segmentation pipeline of Kraken 4.1.
研究の動機と目的
- 小規模データセット(≤1110サンプル)におけるKrakenの性能不良、特に隣接するテキスト領域(カラムや余白)の区別が困難な点を是正すること。
- レイアウト解析におけるピクセル分類とポリゴン化の限界を克服し、正確なメイン本文抽出を可能にすること。
- ポリゴンとピクセルラベルから、境界ボックスを用いたオブジェクト検出への移行を提案し、効率性と正確性を向上させること。
- 訓練および評価のための2つの新規データセット—YALTAi-TablesとYALTAi-MSS-EPB—を公開すること。
- YOLOv5をKrakenのパイプラインに統合できるプラグインパッケージYALTAiを開発し、Krakenと同等のCLIを備えたYOLOベースの領域検出を可能にすること。
提案手法
- YOLOv5を用いて等角境界ボックスを予測するオブジェクト検出タスクに再定式化することで、レイアウトセグメンテーションを実行する。
- トレーニング用にALTO XMLのアノテーションをYOLOv5互換のラベル形式(クラスID、正規化された中心座標、幅、高さ)に変換する。
- YOLOv5nおよびYOLOv5xモデルを、2つの新規データセットであるYALTAi-Tables(16世紀〜20世紀初頭の表形式文書)およびYALTAi-MSS-EPB(9世紀〜16世紀の手稿および初期活字本)でトレーニングする。
- YALTAiパッケージを介してYOLOv5検出をKrakenのパイプラインに統合し、KrakenのセグメンテーションモジュールをYOLOv5に置き換えつつ、Krakenのラインシリアル化およびOCRワークフローを維持する。
- 両データセット全体で一貫性のあるラベル付けを可能にするために、Segmontoオントロジーを用いて文書領域(例:Main、DropCapital、MarginText)をラベル付ける。
- コマンドラインインターフェースを介して、ALTO形式とYOLOv5形式の間での変換およびモデル推論を可能にし、Krakenのインターフェースを模倣する。
実験結果
リサーチクエスチョン
- RQ1YOLOv5によるオブジェクト検出は、小規模な歴史的文書データセットにおけるレイアウト解析において、Krakenのピクセルベースのセグメンテーションを上回るか?
- RQ2ポリゴン化およびピクセル分類から境界ボックス検出への移行が、ドキュメントレイアウトセグメンテーションの正確性と推論速度に与える影響は何か?
- RQ3YOLOv5は、特に複雑なマルチカラムまたは表形式のレイアウトにおいて、未観測の歴史的文書レイアウトにどの程度一般化できるか?
- RQ4モデルサイズおよびアーキテクチャ(YOLOv5n 対 YOLOv5x)が、小データ環境におけるパフォーマンスと効率性に与える影響は何か?
- RQ5YOLOv5をKrakenのパイプラインに統合することで、既存のHTRおよびOCRワークフローとの互換性を維持しつつ、セグメンテーション品質を向上させられるか?
主な発見
- YOLOv5xは、SegmontoデータセットのMainゾーンでmAP 47.75%を達成したのに対し、Krakenは6.98%であった。これは6倍以上の向上を意味する。
- YALTAi-Tablesデータセットでは、YOLOv5xはColゾーンで4.77%、Headerで12.9%のmAPを達成したが、Krakenはそれぞれ0.09%および0.1%にとどまった。
- YOLOv5nは、RunningTitleを除くすべてのゾーンでKrakenを上回り、Mainゾーンで34.63%のmAPを記録したのに対し、Krakenは6.98%であった。
- YOLOv5モデルは著しく優れた推論速度を示し、1画像あたりの中央値推論時間はYOLOv5nで0.004秒、YOLOv5xで0.025秒であった。これは、Krakenがバッチ処理を実施せず、トレーニング時間も長かったことと対照的である。
- YOLOv5は未観測の表形式文書において優れた一般化性能を示し、Krakenがそれらを1つのゾーンに統合してしまうのに対し、複数のカラムを正しく検出し分離した。
- YALTAiパッケージは、Krakenと比較してGPUメモリ使用量を最大50%削減し、ピーク電力消費量を30%削減しながらも、高い正確性を維持した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。