Skip to main content
QUICK REVIEW

[論文レビュー] Nougat: Neural Optical Understanding for Academic Documents

Lukas Blecher, Guillem Cucurull|arXiv (Cornell University)|Aug 25, 2023
Handwritten Text Recognition Techniques被引用数 18
ひとこと要約

Nougat は、文書ページのエンドツーエンドOCRを実行して軽量のマークアップテキストを生成するエンコーダ-デコーダ型ビジュアル変換器です。大規模な arXiv/PMC データセットで訓練され、コードとモデルとともに公開されています。

ABSTRACT

Scientific knowledge is predominantly stored in books and scientific journals, often in the form of PDFs. However, the PDF format leads to a loss of semantic information, particularly for mathematical expressions. We propose Nougat (Neural Optical Understanding for Academic Documents), a Visual Transformer model that performs an Optical Character Recognition (OCR) task for processing scientific documents into a markup language, and demonstrate the effectiveness of our model on a new dataset of scientific documents. The proposed approach offers a promising solution to enhance the accessibility of scientific knowledge in the digital age, by bridging the gap between human-readable documents and machine-readable text. We release the models and code to accelerate future work on scientific text recognition.

研究の動機と目的

  • PDFおよびスキャン済みの本から、特に数式を含む意味的構造を回復する必要性を動機づける。
  • ページ画像をマークアップに変換するOCRフリーのビジュアル文書理解アプローチを提案する。
  • 科学文書のマークアップ生成のための対になったデータセットと事前学習済みモデルを作成・公開する。

提案手法

  • エンコーダー: Swin Transformer がページ画像を潜在パッチ埋め込みへ処理する。
  • デコーダー: Transformerベースの自己回帰生成器(DonutおよびmbARTに触発) が埋め込みをマークアップ語彙へ変換する。
  • 訓練: AdamWを用いたエンドツーエンド最適化を、3エポックのバッチと大きなシーケンス長(S=4096)で行い、推論にはGreedyデコードを用いる。
  • データ拡張: 画像ゆらぎと真偽トークンの摂動を用いてスキャンを模倣し、反復崩壊を抑制する。
  • データセット構築: LaTeXML前処理とページ分割整列を介してarXiv、PMC、Industry Documents Libraryから自動生成された対ペアデータ。
  • 反復処理対応: 推論時の反復を抑止するための反復防止拡張と経験的反復検出器。
Figure 1: Our simple end-to-end architecture followin Donut [ 28 ] . The Swin Transformer encoder takes a document image and converts it into latent embeddings, which are subsequently converted to a sequence of tokens in a auto-regressive manner
Figure 1: Our simple end-to-end architecture followin Donut [ 28 ] . The Swin Transformer encoder takes a document image and converts it into latent embeddings, which are subsequently converted to a sequence of tokens in a auto-regressive manner

実験結果

リサーチクエスチョン

  • RQ1OCRフリーのビジョン・トランスフォーマーは、テキスト・数式・表を含む構造化マークアップへ、文書ページ画像を正確に変換できるか?
  • RQ2科学文書全体で、プレーンテキスト・数式・表の性能はどの程度か?
  • RQ3モデルサイズ(250M vs 350Mパラメータ)とデコード戦略が精度と速度に与える影響は?
  • RQ4外部OCRツールを使わずにエンドツーエンド学習を可能にするデータと拡張戦略は何か?

主な発見

手法モダリティ編集距離 ↓BLEU ↑METEOR ↑適合率 ↑再現率 ↑F1 ↑
PDF全体0.25565.882.177.181.479.2
GROBID全体0.31255.671.974.072.173.0
0.62625.164.561.480.769.7
+ LaTeX OCRプレーンテキスト0.36357.469.282.170.575.9
数式0.7270.35.011.08.69.7
Nougat small (250M ∗ )全体0.07388.992.893.692.292.9
0.22068.578.675.079.877.3
プレーンテキスト0.05891.094.396.195.395.7
数式0.11756.074.777.176.876.9
Nougat base (350M ∗ )全体0.07189.193.093.592.893.1
0.21169.779.175.480.778.0
プレーンテキスト0.05891.294.696.295.395.7
数式0.12856.975.476.576.676.5
  • Nougat small (250M) は、arXivテストセットで評価した場合、プレーンテキストと数式の高いスコアを含む、モダリティ横断の強力な統一性能を達成する。
  • Nougat base (350M) はプレーンテキストと数式の結果をさらに改善し、提案モデルの中で最良の総合指標を達成する。
  • プレーンテキスト出力はモデル間で約91.0–91.2 BLEUと95.3–95.7 F1に達し、堅牢なテキスト回復を示す。
  • 数式モダリティは、LaTeXと式の表現の曖昧さのためプレーンテキストより低いスコアだが、ベースラインと比較して改善されている。
  • 表は中程度の性能向上を受け、BLEUとF1は通常プレーンテキストより低く、方程式と表からの構造化コンテンツ抽出の難しさを示している。
  • ドメイン内性能(arXiv)は、提案モデルがほとんどの指標でGROBIDおよびOCRベースのベースラインを上回ることを示している。
Figure 2: List of the different image augmentation methods used during training on an example snippet form a sample document.
Figure 2: List of the different image augmentation methods used during training on an example snippet form a sample document.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。