[论文解读] Corpus Conversion Service: A machine learning platform to ingest documents at scale [Poster abstract]
本文提出了文档转换服务(Corpus Conversion Service, CCS),一种基于云的机器学习平台,通过使用可训练模型而非基于规则的启发式方法,实现大规模将PDF文档转换为结构化数据。该平台利用深度学习和随机森林模型,在人工标注的文档布局数据上进行训练,实现了表格检测超过97%的精确率与召回率,以及标题、作者等关键文档元素超过99%的F1分数。
Over the past few decades, the amount of scientific articles and technical literature has increased exponentially in size. Consequently, there is a great need for systems that can ingest these documents at scale and make their content discoverable. Unfortunately, both the format of these documents (e.g. the PDF format or bitmap images) as well as the presentation of the data (e.g. complex tables) make the extraction of qualitative and quantitive data extremely challenging. We present a platform to ingest documents at scale which is powered by Machine Learning techniques and allows the user to train custom models on document collections. We show precision/recall results greater than 97% with regard to conversion to structured formats, as well as scaling evidence for each of the microservices constituting the platform.
研究动机与目标
- 为解决长期存在的大规模将非结构化PDF转换为结构化数据的挑战。
- 克服基于规则的系统需要持续手动调优的局限性。
- 通过在人工标注的真实布局数据上训练机器学习模型,实现自动化、可扩展的文档摄入。
- 通过可视化、彩色编码的布局元素标注方式,减少标注工作量。
- 通过混合深度学习与集成模型,提升布局语义分类的准确性。
提出的方法
- 该平台采用微服务架构处理文档处理流水线:解析、模型推理、组装、标注和训练。
- 每页PDF被解析为单元格——带有边界框和内容的文本片段——作为机器学习模型的输入。
- 布局语义(如标题、表格、正文)通过深度神经网络(Faster R-CNN、YOLOv2)进行目标检测,以及通过随机森林模型进行模板特定分类。
- 通过可视化界面收集标注,每个标签分配一种颜色,显著减少人工标注时间。
- 几何和样式特征(位置、大小、字体样式、与邻近元素的距离)被用作自定义随机森林模型的输入特征。
- 通过新标注数据迭代重新训练模型,实现在特定文档模板上的持续改进。
实验结果
研究问题
- RQ1基于机器学习的方法是否能在大规模PDF文档转换中超越基于规则的系统?
- RQ2如何实现高效且可扩展的人工标注,以训练布局语义模型?
- RQ3深度学习模型在多大程度上能以高精确率与高召回率检测复杂布局元素(如表格)?
- RQ4模板特定模型是否能提升科学期刊等结构化文档的识别准确率?
- RQ5将深度学习预测结果与几何特征结合,能否提升分类性能?
主要发现
- 在Physical Review B数据集上,使用模板特定模型进行标题检测,实现了97.40%的精确率和100%的召回率。
- 对于表格检测,系统达到了99.24%的精确率和99.97%的召回率,表明在识别复杂布局元素方面具有高度可靠性。
- 在5,000页的测试集中,Faster R-CNN和YOLOv2模型在表格检测上的精确率与召回率均超过97%。
- 由于采用了彩色编码的可视化界面,人工标注速度提升至每分钟30页,工作量至少降低了一个数量级。
- 将深度学习预测结果作为特征输入的混合模型,其在关键文档元素分类上的准确率优于单一模型。
- 微服务架构实现了线性扩展:处理速度随虚拟机数量成比例提升,保持了恒定的求解时间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。