Skip to main content
QUICK REVIEW

[論文レビュー] Docling Technical Report

Christoph Auer, Maksym Lysak|arXiv (Cornell University)|Aug 19, 2024
Handwritten Text Recognition Techniques被引用数 8
ひとこと要約

Docling は、レイアウト分析と表構造認識の専門的な AI モデルを使用して JSON or Markdown を出力する、オープンソースの PDF ドキュメント変換ツールです。OCR は任意で、設定可能なパフォーマンスモードを備え、 commodity hardware 上でのローカルでの効率的な処理を目的として設計されています。

ABSTRACT

This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.

研究の動機と目的

  • 使いやすく自己完結型の PDF-to-JSON/Markdown 変換ツールを、commodity hardware 上でローカルに実行することを実証する。
  • 最先端のレイアウト分析と表構造認識モデルを活用して、読み順、図、表を復元します。
  • 文書メタデータを抽出し、スキャン済みのPDFに対する任意の OCR をサポートします。
  • バッチ処理または対話的な使用のために設定可能な、モジュール式で拡張可能なパイプラインを提供します。
  • 異なるバックエンドとハードウェアににわたってパフォーマンスとリソース使用量を評価します。

提案手法

  • 線形でページごとに処理するパイプラインを、PDF バックエンドとレイアウトおよび表理解のための AI モデルの連携で統合します。
  • DocLayNet ベースのレイアウト分析をオブジェクト検出器として使用し、ページ要素を特定してテキストトークンとグループ化します。
  • TableFormer を用いて表構造を回復し、それを PDF セルへマッピングします。
  • スキャンされた内容に対して OCR オプション(EasyOCR)を提供し、複数のバックエンド(docling-parse、pypdfium)をサポートします。
  • ページごとの予測を型付きドキュメントオブジェクトへ組み上げ、JSON または Markdown へ出力を直列化します。
  • BaseModelPipeline 抽象を介して、コンポーネントをカスタマイズまたは置換できる拡張可能なモデル・パイプラインインタフェースを提供します。
Docling Technical Report

実験結果

リサーチクエスチョン

  • RQ1PDF ドキュメントを、レイアウトと表への機械処理可能なフォーマットへ高忠実度で変換しつつ、リソース負荷を抑えるにはどうすればよいか。
  • RQ2Docling のスループットとメモリ使用量に対する、異なる PDF バックエンドと CPU スレッド予算の影響はどの程度か。
  • RQ3統合モデル(DocLayNet レイアウト分析と TableFormer 表認識)は、典型的な学術文書や企業文書でどれくらい性能を発揮するか。
  • RQ4Docling を追加のモデルやバックエンドで拡張して、カバー範囲(図、式、コード)と速度を改善できるか。

主な発見

  • Docling は、PDF を JSON または Markdown に、安定した出力と commodity hardware 上での高速なパフォーマンスで変換できる。
  • パイプラインは、詳細なレイアウト、読み順、表構造を抽出し、タイトルや著者などのメタデータを抽出できる。
  • 任意の OCR はスキャン済みの PDF をサポートするが、CPU での OCR は substantial な実行時間を追加し、追加の加速がないと遅くなる可能性がある。
  • Docling は複数の PDF バックエンドを提供し、カスタマイズ可能な拡張可能なモデル・パイプラインインタフェースを備える。
  • パフォーマンス測定は、ネイティブバックエンドと代替バックエンドのトレードオフを強調し、Mac および Linux ハードウェアでの実行と、設定可能なスレッド予算を示す。
  • 本プロジェクトはオープンソースの拡張性と、下流の AI ワークフロー(例:RAG、埋め込みパイプライン)との統合を強調している。
Figure 1: Sketch of Docling’s default processing pipeline. The inner part of the model pipeline is easily customizable and extensible.
Figure 1: Sketch of Docling’s default processing pipeline. The inner part of the model pipeline is easily customizable and extensible.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。