Skip to main content
QUICK REVIEW

[논문 리뷰] Docling Technical Report

Christoph Auer, Maksym Lysak|arXiv (Cornell University)|2024. 08. 19.
Handwritten Text Recognition Techniques인용 수 8
한 줄 요약

Docling은 특수 AI 모델을 활용한 레이아웃 분석 및 표 구조 인식으로 JSON 또는 Markdown를 출력하는 오픈 소스 PDF 문서 변환기로, 선택적 OCR 및 구성 가능한 성능 모드를 제공하며 일반 하드웨어에서 로컬로 효율적으로 처리하도록 설계되었습니다.

ABSTRACT

This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.

연구 동기 및 목표

  • 일반 하드웨어에서 로컬로 실행되는 쉽고 독립적인 PDF-대-JSON/Markdown 변환 도구를 시연한다.
  • 최신 수준의 레이아웃 분석 및 표 구조 인식 모델을 활용하여 읽기 순서, 그림 및 표를 복원한다.
  • 문서 메타데이터를 추출하고 스캔된 PDF에 대해 선택적 OCR을 지원한다.
  • 배치 또는 대화형 사용에 맞게 구성할 수 있는 모듈형이고 확장 가능한 파이프라인을 제공한다.
  • 다양한 백엔드와 하드웨어에서 성능 및 자원 사용량을 평가한다.

제안 방법

  • 레이아웃 및 표 이해를 위한 AI 모델 시퀀스와 함께 PDF 백엔드를 갖춘 선형 페이지별 처리 파이프라인을 통합한다.
  • 페이지 요소를 식별하고 텍스트 토큰과 함께 그룹화하기 위해 객체 탐지기로서 DocLayNet 기반의 레이아웃 분석을 사용한다.
  • TableFormer를 사용하여 표 구조를 복원하고 이를 PDF 셀에 매핑한다.
  • 스캔된 콘텐츠를 위한 OCR 옵션(EasyOCR)을 제공하고 여러 백엔드(docling-parse, pypdfium)를 지원한다.
  • 페이지별 예측을 타입이 지정된 문서 객체로 조합하고 출력 결과를 JSON 또는 Markdown으로 직렬화한다.
  • BaseModelPipeline 추상화를 통해 구성 요소를 사용자 정의하거나 교체할 수 있는 확장 가능한 모델 파이프라인 인터페이스를 제공한다.
Docling Technical Report

실험 결과

연구 질문

  • RQ1레이아웃과 표에 대해 높은 충실도로 기계가 처리 가능한 형식으로 PDF 문서를 변환하면서도 자원 효율을 유지할 수 있는 방법은 무엇인가?
  • RQ2다양한 PDF 백엔드와 CPU 스레드 예산이 Docling의 처리량과 메모리 사용량에 미치는 영향은 무엇인가?
  • RQ3통합된 모델들(DocLayNet 레이아웃 분석 및 TableFormer 표 인식)이 일반적인 학술 및 기업 문서에서 얼마나 잘 작동하는가?
  • RQ4Docling을 확장해 커버리지를 개선하고 속도를 높일 수 있는가(예: 그림, 방정식, 코드 등)?

주요 결과

  • Docling은 일반 하드웨어에서 안정적인 출력과 빠른 성능으로 PDF를 JSON 또는 Markdown으로 변환할 수 있다.
  • 파이프라인은 상세한 레이아웃, 읽기 순서 및 표 구조를 추출하고 제목 및 저자와 같은 메타데이터를 추출할 수 있다.
  • 선택적 OCR은 스캔된 PDF를 지원하지만 OCR은 CPU에서 상당한 런타임을 추가하며 추가 가속이 없으면 느려질 수 있다.
  • Docling은 여러 PDF 백엔드와 확장 가능한 모델-파이프라인 인터페이스를 제공하여 사용자 정의를 가능하게 한다.
  • 성능 측정은 Mac 및 Linux 하드웨어에서 구성 가능한 스레드 예산으로 실행되었으며, 네이티브 백엔드와 대체 백엔드 간의 트레이드오프를 강조한다.
  • 이 프로젝트는 오픈 소스 확장성과 다운스트림 AI 워크플로우(RAG, 임베딩 파이프라인 등)와의 통합을 강조한다.
Figure 1: Sketch of Docling’s default processing pipeline. The inner part of the model pipeline is easily customizable and extensible.
Figure 1: Sketch of Docling’s default processing pipeline. The inner part of the model pipeline is easily customizable and extensible.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.