QUICK REVIEW
[論文レビュー] Docling Technical Report
Christoph Auer, Maksym Lysak|arXiv (Cornell University)|Aug 19, 2024
Handwritten Text Recognition Techniques被引用数 8
ひとこと要約
Docling は、レイアウト分析と表構造認識の専門的な AI モデルを使用して JSON or Markdown を出力する、オープンソースの PDF ドキュメント変換ツールです。OCR は任意で、設定可能なパフォーマンスモードを備え、 commodity hardware 上でのローカルでの効率的な処理を目的として設計されています。
ABSTRACT
This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.
研究の動機と目的
- 使いやすく自己完結型の PDF-to-JSON/Markdown 変換ツールを、commodity hardware 上でローカルに実行することを実証する。
- 最先端のレイアウト分析と表構造認識モデルを活用して、読み順、図、表を復元します。
- 文書メタデータを抽出し、スキャン済みのPDFに対する任意の OCR をサポートします。
- バッチ処理または対話的な使用のために設定可能な、モジュール式で拡張可能なパイプラインを提供します。
- 異なるバックエンドとハードウェアににわたってパフォーマンスとリソース使用量を評価します。
提案手法
- 線形でページごとに処理するパイプラインを、PDF バックエンドとレイアウトおよび表理解のための AI モデルの連携で統合します。
- DocLayNet ベースのレイアウト分析をオブジェクト検出器として使用し、ページ要素を特定してテキストトークンとグループ化します。
- TableFormer を用いて表構造を回復し、それを PDF セルへマッピングします。
- スキャンされた内容に対して OCR オプション(EasyOCR)を提供し、複数のバックエンド(docling-parse、pypdfium)をサポートします。
- ページごとの予測を型付きドキュメントオブジェクトへ組み上げ、JSON または Markdown へ出力を直列化します。
- BaseModelPipeline 抽象を介して、コンポーネントをカスタマイズまたは置換できる拡張可能なモデル・パイプラインインタフェースを提供します。

実験結果
リサーチクエスチョン
- RQ1PDF ドキュメントを、レイアウトと表への機械処理可能なフォーマットへ高忠実度で変換しつつ、リソース負荷を抑えるにはどうすればよいか。
- RQ2Docling のスループットとメモリ使用量に対する、異なる PDF バックエンドと CPU スレッド予算の影響はどの程度か。
- RQ3統合モデル(DocLayNet レイアウト分析と TableFormer 表認識)は、典型的な学術文書や企業文書でどれくらい性能を発揮するか。
- RQ4Docling を追加のモデルやバックエンドで拡張して、カバー範囲(図、式、コード)と速度を改善できるか。
主な発見
- Docling は、PDF を JSON または Markdown に、安定した出力と commodity hardware 上での高速なパフォーマンスで変換できる。
- パイプラインは、詳細なレイアウト、読み順、表構造を抽出し、タイトルや著者などのメタデータを抽出できる。
- 任意の OCR はスキャン済みの PDF をサポートするが、CPU での OCR は substantial な実行時間を追加し、追加の加速がないと遅くなる可能性がある。
- Docling は複数の PDF バックエンドを提供し、カスタマイズ可能な拡張可能なモデル・パイプラインインタフェースを備える。
- パフォーマンス測定は、ネイティブバックエンドと代替バックエンドのトレードオフを強調し、Mac および Linux ハードウェアでの実行と、設定可能なスレッド予算を示す。
- 本プロジェクトはオープンソースの拡張性と、下流の AI ワークフロー(例:RAG、埋め込みパイプライン)との統合を強調している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。