[論文レビュー] Robust Table Detection and Structure Recognition from Heterogeneous Document Images
RobusTabNetは、コーナーネットベースの領域提案と、空間畳み込みニューラルネットワーク(spatial CNN)を用いた分離線予測、グリッド畳み込みニューラルネットワーク(Grid CNN)を用いたセルマージングを組み合わせた、新しいテーブル検出および構造認識フレームワークを提案する。6つの公開ベンチマークで最先端性能を達成し、複雑で歪みや曲がったテーブルに対しても頑健である。
We introduce a new table detection and structure recognition approach named RobusTabNet to detect the boundaries of tables and reconstruct the cellular structure of each table from heterogeneous document images. For table detection, we propose to use CornerNet as a new region proposal network to generate higher quality table proposals for Faster R-CNN, which has significantly improved the localization accuracy of Faster R-CNN for table detection. Consequently, our table detection approach achieves state-of-the-art performance on three public table detection benchmarks, namely cTDaR TrackA, PubLayNet and IIIT-AR-13K, by only using a lightweight ResNet-18 backbone network. Furthermore, we propose a new split-and-merge based table structure recognition approach, in which a novel spatial CNN based separation line prediction module is proposed to split each detected table into a grid of cells, and a Grid CNN based cell merging module is applied to recover the spanning cells. As the spatial CNN module can effectively propagate contextual information across the whole table image, our table structure recognizer can robustly recognize tables with large blank spaces and geometrically distorted (even curved) tables. Thanks to these two techniques, our table structure recognition approach achieves state-of-the-art performance on three public benchmarks, including SciTSR, PubTabNet and cTDaR TrackB2-Modern. Moreover, we have further demonstrated the advantages of our approach in recognizing tables with complex structures, large blank spaces, as well as geometrically distorted or even curved shapes on a more challenging in-house dataset.
研究の動機と目的
- 軽量バックボーンとコーナーネットベースの領域提案を用いて、テーブル検出の局所化精度を向上させること。
- 大きな空白領域、複雑な階層構造、幾何的歪みが存在する状況下でも、頑健なテーブル構造認識を可能にすること。
- スパンするセルや軸に沿わないテーブルに対処できる、分割・マージフレームワークを構築すること。
- 実際の歪みを含む困難な社内データセットと、公開ベンチマークの両方で性能を検証すること。
提案手法
- Faster R-CNNのための領域提案ネットワークとしてコーナーネットを用い、コーナー点検出により高品質なテーブル候補を生成する。
- 空間畳み込みニューラルネットワーク(spatial CNN)に基づく分離線予測モジュールを採用し、グローバルな文脈を活用して検出されたテーブルをグリッドに分割する。
- グリッド畳み込みニューラルネットワーク(Grid CNN)に基づくセルマージングモジュールを適用し、特徴のコンactなグリッドとしてのテーブル表現を用いて、スパンするセルを回復する。
- 分割・マージパイプラインを統合:まず分離線を用いてテーブルをセルに分割し、その後空間的関係に基づいてセルをマージする。
- 高性能を低計算コストで実現できる軽量なResNet-18をバックボーンネットワークとして使用する。
- 検出および構造認識タスクの両方に対して、交差エントロピー損失とIoUベースの損失を統合してエンドツーエンドで学習する。
実験結果
リサーチクエスチョン
- RQ1コーナーネットベースの領域提案は、軽量バックボーンを用いても、テーブル検出の局所化精度を向上させることができるか?
- RQ2空間畳み込みニューラルネットワーク(spatial CNN)は、大規模な空白領域や曲がった形状に対しても、テーブル全体にわたる文脈を効果的に伝搬できるか?
- RQ3グリッド畳み込みニューラルネットワーク(Grid CNN)ベースのマージングモジュールは、関係ネットワークやGCNを上回ってスパンするセルを再構築できるか?
- RQ4分割・マージフレームワークは、標準ベンチマークに含まれない幾何的歪みや曲がったテーブルに対しても効果を発揮するか?
- RQ5提案手法は、スキャン済みまたはPDFベースのデータセットにとどまらず、複雑な実世界のドキュメント画像にも一般化可能か?
主な発見
- In-houseデータセットにおいて、IoU@0.9を用いたF1スコアが94.6%に達し、ベースラインおよび先行手法を上回る最先端性能を達成した。
- 空間畳み込みニューラルネットワーク(spatial CNN)に基づくメッセージパッシング手法は、複雑なテーブルにおいて94.6%のWAvg. F1スコアを達成し、投影ネットワーク(93.0%)およびBi-GRU(93.1%)を顕著に上回った。
- グリッド畳み込みニューラルネットワーク(Grid CNN)ベースのセルマージング手法は、In-houseデータセットで94.6%のWAvg. F1スコアを達成し、関係ネットワーク(93.2%)およびGCN(94.0%)を上回った。
- 公開ベンチマークでは、cTDaR TrackA、PubLayNet、IIIT-AR-13K、SciTSR、PubTabNet、cTDaR TrackB2-Modernの全6タスクで最先端性能を達成した。
- 曲がったまたは歪んだテーブルに対しても頑健であることが示され、定性的な結果から極端な幾何的歪み下でも正確な分離とマージが可能であることが確認された。
- アブレーションスタディにより、空間畳み込みニューラルネットワーク(spatial CNN)およびグリッド畳み込みニューラルネットワーク(Grid CNN)の両コンponentが重要であることが確認され、いずれかを除去すると性能が著しく低下した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。