QUICK REVIEW

[論文レビュー] A Survey of Deep Learning Approaches for OCR and Document Understanding

Nishant Subramani, Alexandre Matton|arXiv (Cornell University)|Nov 27, 2020

Handwritten Text Recognition Techniques参考文献 103被引用数 26

ひとこと要約

本調査は、エンドツーエンドのドキュメント理解のための最先端のディープラーニング手法を統合し、レイアウト解析およびテキスト検出にコンピュータビジョンを、OCRおよび情報抽出に自然言語処理（NLP）技術を組み合わせたものである。マルチモーダルアーキテクチャ、特に2次元位置埋め込みと自己注意機構を備えたトランスフォーマーが、インvoice や契約書などの複雑なドキュメントからのテーブル理解および構造化情報抽出において最先端のパフォーマンスを達成していることを強調している。

ABSTRACT

Documents are a core part of many businesses in many fields such as law, finance, and technology among others. Automatic understanding of documents such as invoices, contracts, and resumes is lucrative, opening up many new avenues of business. The fields of natural language processing and computer vision have seen tremendous progress through the development of deep learning such that these methods have started to become infused in contemporary document understanding systems. In this survey paper, we review different techniques for document understanding for documents written in English and consolidate methodologies present in literature to act as a jumping-off point for researchers exploring this area.

研究の動機と目的

英語ドキュメントにおけるドキュメント理解のための既存のディープラーニング手法を統合・整理すること。
CVとNLP技術を統合したエンドツーエンドのドキュメント理解システムを構築するための構造的フレームワークを提供すること。
限られた公開データセットの影響により、ドキュメント理解分野における現在のトレンド、限界、研究ギャップを明らかにすること。
ドキュメントAI分野に新たに参入する研究者および実務家にとっての基盤的リファレンスとして機能すること。

提案手法

ドキュメントのレイアウト解析にコンピュータビジョンモデルを統合し、テーブル、住所、ヘッダーなどのコンテンツ領域にページをセグメンテーションする。
シーンテキスト検出およびインスタンスセグメンテーションを用いたディープラーニングベースのOCRモデルを採用し、正確なテキストの局所化と変換を実現する。
2次元位置埋め込みを備えた事前学習済みトランスフォーマー基盤の言語モデル（例：BERT、TUTA）を適用し、ドキュメントレイアウト内の空間的および意味的関係をモデル化する。
DAG（有向非巡回グラフ）を用いたグラフ表現を活用し、抽出されたテキスト内の階層的および関係的構造をモデル化する。
畳み込みおよびトランスフォーマー基盤のアーキテクチャを用いて、テーブル検出、構造認識、セルタイプ分類を同時に学習するマルチタスク学習フレームワークを適用する。
TUTAでは、マスクされたトークン予測、ヘッダー再構築、コンテキスト連関といった、テーブル理解に特化した事前学習目的を特別に設計し、パフォーマンスを向上させている。

実験結果

リサーチクエスチョン

RQ1どのようにしてディープラーニングモデルが、ドキュメントレイアウト理解のための視覚的信号と言語的信号を効果的に統合できるか？
RQ2複雑で現実世界のドキュメントにおいて、エンドツーエンドのOCRおよび情報抽出に最も効果的なアーキテクチャは何か？
RQ3トランスフォーマー基盤のモデルは、レイアウトに配慮したドキュメント理解において、長大なドキュメントシーケンスおよび空間的依存関係をどのように処理できるか？
RQ4テーブル検出および構造認識における主な課題は何か、そしてマルチモーダルディープラーニングによってそれらはどのように解決できるか？
RQ5リソースが限られたドキュメント理解タスクのパフォーマンスを向上させるために、どのように事前学習戦略を設計できるか？

主な発見

CVとNLPを統合したマルチモーダルディープラーニングシステムは、従来のルールベースや独立したコンponentアプローチよりも、ドキュメント理解において優れた性能を発揮する。
2次元位置埋め込みを備えたトランスフォーマーは、特にテーブルのような複雑な構造において、ドキュメントレイアウト内の空間的関係のモデリングを顕著に向上させる。
TUTAは、テーブル理解に特化したタスク固有の事前学習目的を導入することで、セルタイプ分類において最先端のパフォーマンスを達成している。
DAGを用いたグラフ表現により、任意の深さの階層構造およびドキュメント要素間の複雑な関係をモデル化できる。
アクティブラーニングおよびマルチタスクラーニングフレームワークは、テーブル検出および構造認識における一般化性能を向上させるとともに、アノテーションコストを削減する。
進展は見られるものの、限られた公開可能なデータセットが、ドキュメント理解研究の進展を妨げる主要な障壁のままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。