Skip to main content
QUICK REVIEW

[論文レビュー] PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML

Jiaquan Ye, Xianbiao Qi|arXiv (Cornell University)|May 5, 2021
Handwritten Text Recognition Techniques参考文献 11被引用数 30
ひとこと要約

本論文は、MASTERとPSENetを基盤とする4つのサブタスクからなるパイプライン(表構造認識、テキスト行検出、テキスト行認識、ボックス割り当て)を提示し、表画像をHTMLへ変換します。開発データでのTEDsスコアは96.84%、最終評価で96.32%を達成しました。

ABSTRACT

This paper presents our solution for ICDAR 2021 competition on scientific literature parsing taskB: table recognition to HTML. In our method, we divide the table content recognition task into foursub-tasks: table structure recognition, text line detection, text line recognition, and box assignment.Our table structure recognition algorithm is customized based on MASTER [1], a robust image textrecognition algorithm. PSENet [2] is used to detect each text line in the table image. For text linerecognition, our model is also built on MASTER. Finally, in the box assignment phase, we associatedthe text boxes detected by PSENet with the structure item reconstructed by table structure prediction,and fill the recognized content of the text line into the corresponding item. Our proposed methodachieves a 96.84% TEDS score on 9,115 validation samples in the development phase, and a 96.32%TEDS score on 9,064 samples in the final evaluation phase.

研究の動機と目的

  • 学術文献の解析のために、表画像をHTMLに再構成するタスクを動機づける。
  • 表-to-HTML変換における関心事を分離する4サブタスクのフレームワークを提案する。
  • Leverage MASTER for both table structure prediction and text line recognition.
  • 堅牢なテキスト行検出のためにPSENetを用い、HTMLセルへ埋めるボックス割り当て戦略を設計する。

提案手法

  • 問題を4つのサブタスクに分割する:表構造認識、テキスト行検出、テキスト行認識、ボックス割り当て。
  • MASTERを表構造ブランチと別のボックス回帰ブランチにカスタマイズする。
  • PSENetを用いて表画像内のテキスト行を検出する。
  • 単一行テキストと複数行テキストの混合データセット上で、MASTERを基盤としたテキスト行認識器を訓練する。
  • 検出されたテキストボックスをHTML表のセルへマップするため、3規則のボックス割り当て戦略(センターポイント規則、IOU規則、距離規則)を適用する。
  • PubTabNetデータ上でTEDS指標を用いてエンドツーエンドのHTML生成を評価する。

実験結果

リサーチクエスチョン

  • RQ14サブタスクのパイプラインは、画像から高い構造忠実度を持つ表HTMLを信頼性高く再構成できるか?
  • RQ2構造予測とテキスト行認識は、TEDSで測定されるHTML忠実度を最大化するためにどう相互作用するか?
  • RQ3マッチング戦略(Center Point、IOU、Distance)が最終的なHTML内容の精度に与える影響は?
  • RQ4データ拡張、オプティマイザの選択、同期技術がエンドツーエンドのTEDS性能に与える影響は?

主な発見

  • 開発段階の検証セットで96.84%のTEDSを達成(9,115サンプル)。
  • 最終評価セットで96.32%のTEDSを達成(9,064サンプル)。
  • エンドツーエンドアプローチは、高いTEDSスコアのためには正確な表構造予測の重要性を強調する。
  • テキスト行検出にPSENetを使用することで、表のセル内での堅牢な行定位を提供する。
  • ボックス割り当て規則(Center Point、IOU、Distance)は、テキストボックスを再構成された表構造へ効果的にマッピングする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。