Skip to main content
QUICK REVIEW

[论文解读] Docling Technical Report

Christoph Auer, Maksym Lysak|arXiv (Cornell University)|Aug 19, 2024
Handwritten Text Recognition Techniques被引用 8
一句话总结

Docling 是一个开源的 PDF 文档转换器,使用专门的 AI 模型进行布局分析和表结构识别,以输出 JSON 或 Markdown,支持可选 OCR 和可配置的性能模式,设计用于在普通硬件上本地高效处理。

ABSTRACT

This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.

研究动机与目标

  • 演示一个易于使用、独立的 PDF-to-JSON/Markdown 转换工具,在普通硬件上本地运行。
  • 利用最先进的布局分析和表结构识别模型来恢复阅读顺序、图形和表格。
  • 提取文档元数据并支持对扫描 PDF 的可选 OCR。
  • 提供一个模块化、可扩展的管线,可配置用于批处理或交互式使用。
  • 在不同后端和硬件上评估性能与资源使用。

提出的方法

  • 集成线性、逐页处理管线,带有 PDF 后端以及用于布局和表理解的一系列 AI 模型。
  • 将基于 DocLayNet 的布局分析作为对象检测器来识别页面元素并与文本标记分组。
  • 使用 TableFormer 来恢复表结构并将其映射到 PDF 单元格。
  • 提供一个 OCR 选项(EasyOCR)用于扫描内容,并支持多后端(docling-parse、pypdfium)。
  • 将逐页预测汇总成一个有类型的文档对象并序列化输出为 JSON 或 Markdown。
  • 提供一个可扩展的模型管线接口,通过 BaseModelPipeline 抽象来定制或替换组件。
Docling Technical Report

实验结果

研究问题

  • RQ1如何在尽量保持布局和表格高保真度的前提下,将 PDF 文档转换为可机器处理的格式,同时保持资源效率?
  • RQ2不同的 PDF 后端和 CPU 线程预算对 Docling 的吞吐量和内存使用有何影响?
  • RQ3集成的模型(DocLayNet 布局分析和 TableFormer 表格识别)在典型学术和企业文档上的表现如何?
  • RQ4是否可以通过增加模型和后端来扩展 Docling 的覆盖范围(如图形、方程、代码)并提升速度?

主要发现

  • Docling 能将 PDF 转换为 JSON 或 Markdown,输出稳定且在普通硬件上具备快速性能。
  • 管线提取了详细的布局、阅读顺序和表结构,并且可以提取标题和作者等元数据。
  • 可选 OCR 支持扫描的 PDF,尽管 OCR 会显著增加 CPU 运行时间,且在没有额外加速的情况下可能更慢。
  • Docling 提供多种 PDF 后端和可扩展的模型管线接口以实现定制化。
  • 性能测量在 Mac 和 Linux 硬件上进行,具有可配置的线程预算,突出原生后端与替代后端之间的权衡。
  • 该项目强调开源的可扩展性及与下游 AI 工作流(如 RAG、嵌入管线)的集成。
Figure 1: Sketch of Docling’s default processing pipeline. The inner part of the model pipeline is easily customizable and extensible.
Figure 1: Sketch of Docling’s default processing pipeline. The inner part of the model pipeline is easily customizable and extensible.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。