Skip to main content
QUICK REVIEW

[论文解读] The Design of an LLM-powered Unstructured Analytics System

Eric Anderson, Jonathan Fritz|arXiv (Cornell University)|Sep 1, 2024
Neural Networks and Applications被引用 5
一句话总结

本文提出 Aryn,一种由大语言模型驱动的端到端非结构化分析系统,具有声明式文档处理引擎(Sycamore)和查询规划器(Luna),用于对大规模文档集合执行自然语言查询。

ABSTRACT

LLMs demonstrate an uncanny ability to process unstructured data, and as such, have the potential to go beyond search and run complex, semantic analyses at scale. We describe the design of an unstructured analytics system, Aryn, and the tenets and use cases that motivate its design. With Aryn, users specify queries in natural language and the system automatically determines a semantic plan and executes it to compute an answer from a large collection of unstructured documents. At the core of Aryn is Sycamore, a declarative document processing engine, that provides a reliable distributed abstraction called DocSets. Sycamore allows users to analyze, enrich, and transform complex documents at scale. Aryn includes Luna, a query planner that translates natural language queries to Sycamore scripts, and DocParse, which takes raw PDFs and document images, and converts them to DocSets for downstream processing. We show how these pieces come together to achieve better accuracy than RAG on analytics queries over real world reports from the National Transportation Safety Board (NTSB). Also, given current limitations of LLMs, we argue that an analytics system must provide explainability to be practical, and show how Aryn's user interface does this to help build trust.

研究动机与目标

  • 说明在大型非结构化文档库中进行语义分析的企业需求,超越简单检索。
  • 提出一种声明式、基于计划的方法来进行非结构化分析,结合 ETL 风格处理与灵活分析。
  • 介绍一种可扩展架构,支持以 LLM 驱动的转换和解释,并具备人机互审环节。

提出的方法

  • 介绍 Aryn,一个开源系统,具备 Sycamore 文档处理和 DocSets 作为核心数据抽象。
  • 描述 Aryn Partitioner,它使用在 DocLayNet 上训练的基于视觉的分割模型(Deformable DETR)将原始 PDF/图像转换为 DocSets。
  • 介绍 Luna,是一个规划器,将自然语言查询转换为由 Sycamore 执行的语义查询计划。
  • 解释数据模型:文档是元素的层次树,DocSets 支持多模态内容和元数据。
  • 详细说明执行模型,基于类似 Spark 的懒惰分布式流水线,构建于 Ray,支持可追溯性和调试。
  • 概述集成到 Sycamore 流水线中的 LLM 驱动转换(例如 llm_query、extract_properties、summarize)。
Figure 1. Aryn Architecture
Figure 1. Aryn Architecture

实验结果

研究问题

  • RQ1端到端系统如何利用 LLMs 对非结构化文档集合进行复杂分析,同时保持可解释性和可控性?
  • RQ2在多模态、分层文档环境中,需哪些架构组件来使 ETL 风格处理与分析对齐?
  • RQ3人机循环参与的方法是否能提升基于 LLM 的非结构化分析生态系统的准确性与信任度?

主要发现

  • Aryn 展示了对非结构化数据的端到端查询,使用自然语言生成语义计划并执行以计算答案。
  • 使用 Deformable DETR 的 Partitioner 在 DocLayNet 上的文档布局分割性能(mAP 0.602,mAR 0.743)高于竞争云厂商 API(mAP 0.344,mAR 0.466)。
  • Sycamore 提供文档级转换和基于 LLM 的增强,并带有可追溯的 lineage,用于调试与可解释性。
  • Luna 在关于 earnings 与 NTSB 报告的微基准测试中达到 72% 的准确率,13 个正确、3 个可行、2 个不正确的答案;对含糊情况承认需要人机循环处理。
  • 该系统支持传统算子与语义 LLM 基算子的组合,具备计划可视化和 JSON 格式的计划以实现透明度。
Figure 2. Output of Aryn Partitioner (including table and cell identification) on a typical PDF NTSB accident report.
Figure 2. Output of Aryn Partitioner (including table and cell identification) on a typical PDF NTSB accident report.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。