QUICK REVIEW
[论文解读] Docling Technical Report
Christoph Auer, Maksym Lysak|arXiv (Cornell University)|Aug 19, 2024
Handwritten Text Recognition Techniques被引用 8
一句话总结
Docling 是一个开源的 PDF 文档转换器,使用专门的 AI 模型进行布局分析和表结构识别,以输出 JSON 或 Markdown,支持可选 OCR 和可配置的性能模式,设计用于在普通硬件上本地高效处理。
ABSTRACT
This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.
研究动机与目标
- 演示一个易于使用、独立的 PDF-to-JSON/Markdown 转换工具,在普通硬件上本地运行。
- 利用最先进的布局分析和表结构识别模型来恢复阅读顺序、图形和表格。
- 提取文档元数据并支持对扫描 PDF 的可选 OCR。
- 提供一个模块化、可扩展的管线,可配置用于批处理或交互式使用。
- 在不同后端和硬件上评估性能与资源使用。
提出的方法
- 集成线性、逐页处理管线,带有 PDF 后端以及用于布局和表理解的一系列 AI 模型。
- 将基于 DocLayNet 的布局分析作为对象检测器来识别页面元素并与文本标记分组。
- 使用 TableFormer 来恢复表结构并将其映射到 PDF 单元格。
- 提供一个 OCR 选项(EasyOCR)用于扫描内容,并支持多后端(docling-parse、pypdfium)。
- 将逐页预测汇总成一个有类型的文档对象并序列化输出为 JSON 或 Markdown。
- 提供一个可扩展的模型管线接口,通过 BaseModelPipeline 抽象来定制或替换组件。

实验结果
研究问题
- RQ1如何在尽量保持布局和表格高保真度的前提下,将 PDF 文档转换为可机器处理的格式,同时保持资源效率?
- RQ2不同的 PDF 后端和 CPU 线程预算对 Docling 的吞吐量和内存使用有何影响?
- RQ3集成的模型(DocLayNet 布局分析和 TableFormer 表格识别)在典型学术和企业文档上的表现如何?
- RQ4是否可以通过增加模型和后端来扩展 Docling 的覆盖范围(如图形、方程、代码)并提升速度?
主要发现
- Docling 能将 PDF 转换为 JSON 或 Markdown,输出稳定且在普通硬件上具备快速性能。
- 管线提取了详细的布局、阅读顺序和表结构,并且可以提取标题和作者等元数据。
- 可选 OCR 支持扫描的 PDF,尽管 OCR 会显著增加 CPU 运行时间,且在没有额外加速的情况下可能更慢。
- Docling 提供多种 PDF 后端和可扩展的模型管线接口以实现定制化。
- 性能测量在 Mac 和 Linux 硬件上进行,具有可配置的线程预算,突出原生后端与替代后端之间的权衡。
- 该项目强调开源的可扩展性及与下游 AI 工作流(如 RAG、嵌入管线)的集成。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。