QUICK REVIEW

[论文解读] Docling Technical Report

Christoph Auer, Maksym Lysak|arXiv (Cornell University)|Aug 19, 2024

Handwritten Text Recognition Techniques被引用 8

一句话总结

Docling 是一个开源的 PDF 文档转换器，使用专门的 AI 模型进行布局分析和表结构识别，以输出 JSON 或 Markdown，支持可选 OCR 和可配置的性能模式，设计用于在普通硬件上本地高效处理。

ABSTRACT

This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.

研究动机与目标

演示一个易于使用、独立的 PDF-to-JSON/Markdown 转换工具，在普通硬件上本地运行。
利用最先进的布局分析和表结构识别模型来恢复阅读顺序、图形和表格。
提取文档元数据并支持对扫描 PDF 的可选 OCR。
提供一个模块化、可扩展的管线，可配置用于批处理或交互式使用。
在不同后端和硬件上评估性能与资源使用。

提出的方法

集成线性、逐页处理管线，带有 PDF 后端以及用于布局和表理解的一系列 AI 模型。
将基于 DocLayNet 的布局分析作为对象检测器来识别页面元素并与文本标记分组。
使用 TableFormer 来恢复表结构并将其映射到 PDF 单元格。
提供一个 OCR 选项（EasyOCR）用于扫描内容，并支持多后端（docling-parse、pypdfium）。
将逐页预测汇总成一个有类型的文档对象并序列化输出为 JSON 或 Markdown。
提供一个可扩展的模型管线接口，通过 BaseModelPipeline 抽象来定制或替换组件。

实验结果

研究问题

RQ1如何在尽量保持布局和表格高保真度的前提下，将 PDF 文档转换为可机器处理的格式，同时保持资源效率？
RQ2不同的 PDF 后端和 CPU 线程预算对 Docling 的吞吐量和内存使用有何影响？
RQ3集成的模型（DocLayNet 布局分析和 TableFormer 表格识别）在典型学术和企业文档上的表现如何？
RQ4是否可以通过增加模型和后端来扩展 Docling 的覆盖范围（如图形、方程、代码）并提升速度？

主要发现

Docling 能将 PDF 转换为 JSON 或 Markdown，输出稳定且在普通硬件上具备快速性能。
管线提取了详细的布局、阅读顺序和表结构，并且可以提取标题和作者等元数据。
可选 OCR 支持扫描的 PDF，尽管 OCR 会显著增加 CPU 运行时间，且在没有额外加速的情况下可能更慢。
Docling 提供多种 PDF 后端和可扩展的模型管线接口以实现定制化。
性能测量在 Mac 和 Linux 硬件上进行，具有可配置的线程预算，突出原生后端与替代后端之间的权衡。
该项目强调开源的可扩展性及与下游 AI 工作流（如 RAG、嵌入管线）的集成。

Figure 1: Sketch of Docling’s default processing pipeline. The inner part of the model pipeline is easily customizable and extensible.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。