[论文解读] Document Domain Randomization for Deep Learning Document Layout Extraction
本文提出文档域随机化(DDR),一种通过随机化布局、字体和内容生成合成文档页面的方法,用于训练深度卷积神经网络(CNN)进行文档布局提取。DDR在真实世界基准数据集(CS-150、ACL300、VIS300)上实现了具有竞争力的性能,涵盖9个语义类别,展现出对标签噪声和训练数据减少的鲁棒性,同时消除了对昂贵人工标注的依赖。
We present document domain randomization (DDR), the first successful transfer of convolutional neural networks (CNNs) trained only on graphically rendered pseudo-paper pages to real-world document segmentation. DDR renders pseudo-document pages by modeling randomized textual and non-textual contents of interest, with user-defined layout and font styles to support joint learning of fine-grained classes. We demonstrate competitive results using our DDR approach to extract nine document classes from the benchmark CS-150 and papers published in two domains, namely annual meetings of Association for Computational Linguistics (ACL) and IEEE Visualization (VIS). We compare DDR to conditions of style mismatch, fewer or more noisy samples that are more easily obtained in the real world. We show that high-fidelity semantic information is not necessary to label semantic classes but style mismatch between train and test can lower model accuracy. Using smaller training samples had a slightly detrimental effect. Finally, network models still achieved high test accuracy when correct labels are diluted towards confusing labels; this behavior hold across several classes.
研究动机与目标
- 解决学术论文中文档布局分割任务训练数据标注成本高且稀缺的问题。
- 通过生成模拟真实世界文档多样性的合成训练数据,减少对人工标注的依赖。
- 评估在风格不匹配、数据量减少和标签噪声条件下,基于合成数据训练的CNN模型的鲁棒性。
- 证明高保真语义内容并非有效布局学习的必要条件,但风格多样性对泛化能力至关重要。
- 建立一种可扩展、自动化的端到端流水线,用于在无需真实人工标注数据的情况下训练深度学习模型进行文档布局任务。
提出的方法
- DDR通过随机化布局参数(如列宽、字体样式/大小、文本长度和图表/表格位置)生成合成文档页面。
- 该方法对文本和非文本元素(如图表、公式、图注)实施受约束的随机化,以模拟真实世界文档的多样性。
- 训练数据以100%的真值边界框生成,实现精确监督,无需人工标注。
- 该方法支持九种类别的联合学习:摘要、算法、作者、正文、图注、公式、图表、表格和标题。
- 图形化页面生成器通过随机组合字体样式、文本内容和结构组件,覆盖真实世界中的风格分布。
- 该方法受机器人学和计算机视觉中域随机化思想的启发,但专为文档布局理解任务进行了适配。
实验结果
研究问题
- RQ1通过域随机化生成的合成文档页面是否能在真实世界文档布局分割任务中实现具有竞争力的性能?
- RQ2与风格匹配或低变化度的合成数据相比,合成训练数据中的风格多样性是否能提升模型泛化能力?
- RQ3当训练数据减少至原始大小的6.25%时,模型性能如何退化?
- RQ4CNN模型在合成训练数据中存在标签噪声(特别是1%–10%噪声水平)时的鲁棒性如何?
- RQ5在低保真度、随机化的合成数据上训练的模型是否仍能在真实文档布局上实现高精度?
主要发现
- DDR在CS-150、ACL300和VIS300基准上实现了具有竞争力的性能,展现出对真实世界文档布局的强大泛化能力。
- 随着训练数据减少,模型准确率成比例下降;当样本减半至6.25%(938页)时,所有类别均出现一致下降。
- 即使在10%标签噪声下,CNN模型仍保持高准确率(关键类别超过80%),表明对人工标注错误具有强鲁棒性。
- 标签噪声对摘要、正文、公式和图表检测的影响较小,表明模型对相似类别间的混淆具有较强抗性。
- 高保真语义内容并非实现准确布局分割的必要条件;风格多样性比语义真实性更为关键。
- 该方法成功弥合了合成训练数据与真实测试数据之间的“现实差距”,实现了无需真实世界标注的高精度推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。