[論文レビュー] BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding
BERTgrid は 2D の文書グリッドを作成し、ドキュメントのレイアウトに合わせた文脈化された BERT の語片埋め込みを提供し、従来のグリッドベースの手法より請求書フィールド抽出を改善します。
For understanding generic documents, information like font sizes, column layout, and generally the positioning of words may carry semantic information that is crucial for solving a downstream document intelligence task. Our novel BERTgrid, which is based on Chargrid by Katti et al. (2018), represents a document as a grid of contextualized word piece embedding vectors, thereby making its spatial structure and semantics accessible to the processing neural network. The contextualized embedding vectors are retrieved from a BERT language model. We use BERTgrid in combination with a fully convolutional network on a semantic instance segmentation task for extracting fields from invoices. We demonstrate its performance on tabulated line item and document header field extraction.
研究の動機と目的
- 2D ドキュメント構造(レイアウト、フォント、位置)を活用して請求書からの情報抽出を改善する。
- 空間情報を保持しつつ意味的文脈をエンコードするグリッドベースの表現を開発する。
- 既存のグリッドベースの手法と比較してヘッダおよびラインアイテムのフィールド抽出を評価する。
提案手法
- ドキュメントを各セルがその空間領域を占める語片の文脈化された BERT 埋め込みを含む2Dグリッドとして表現する。
- 事前学習済み BERT モデルにシリアライズされたドキュメントテキストを入力して埋め込みを作成し、倒数第二層を各語片の埋め込みとして使用する。
- OCRで抽出した語の位置とBERT埋め込みを組み合わせて、セマンティックセグメンテーションと境界ボックス回帰に用いる入力テンソル W を形成する。
- BERTgrid を Chargrid、Wordgrid、ハイブリッドバリアント(C+BERTgrid、C+Wordgrid)と同一の下流ネットワークで比較して、入力表現の影響を分離する。
- NVIDIA V100 上で各モデル 800k イテレーションの訓練を行い、下流タスクで BERT は微調整しない。
実験結果
リサーチクエスチョン
- RQ1文脈化された語片レベルの埋め込みを持つ 2D 文書グリッドは、非文脈的あるいは文字レベルのグリッドと比較して請求書ヘッダおよびラインアイテムの抽出精度を向上させるか。
- RQ2BERTgrid は Chargrid および Wordgrid と比較してどのような性能を示し、組み合わせモデル(C+BERTgrid、C+Wordgrid)は追加の改善を提供するか。
- RQ3ドメイン特化のプリトレインBERT表現を使用することが、複雑なレイアウトを持つ文書の下流情報抽出タスクにどのような影響を与えるか。
主な発見
| Mean | Amount | Number | Date | Vendor name | LI mean | LI quantity | |
|---|---|---|---|---|---|---|---|
| Chargrid | 61.76% | 91.42% | 83.90% | 85.74% | 40.91% | 56.59% | 66.97% |
| Wordgrid | 60.36% | 88.79% | 77.35% | 84.08% | 39.75% | 55.98% | 66.19% |
| C+Wordgrid | 62.94% | 90.53% | 84.34% | 87.12% | 41.63% | 58.19% | 66.79% |
| BERTgrid | 64.21% | 92.44% | 84.99% | 87.79% | 44.86% | 59.38% | 71.97% |
| C+BERTgrid | 65.48% | 92.38% | 86.25% | 88.46% | 47.22% | 60.42% | 73.18% |
- BERTgrid およびそのハイブリッド C+BERTgrid は、ヘッダおよびラインアイテムフィールド全体で平均抽出精度のベースラインを上回る。
- C+BERTgrid は 65.48% mean extraction accuracy、Chargrid ベースラインより相対 6.02% 改善。
- 文脈化された語片埋め込みは、非文脈的な語/文字グリッドよりも収束を早め、レイアウト依存の意味論の扱いに優れている。
- Wordgrid のみは語彙外問題が大きいためパフォーマンスが劣り、語と文字の情報を組み合わせたモデルが最良の結果を示す。
- large unlabeled invoice コーパスでの BERT の事前学習は、下流モデルで使用される埋め込みにドメイン知識を蒸留するのに役立つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。