[论文解读] TabLeX: A Benchmark Dataset for Structure and Content Information Extraction from Scientific Tables
本论文提出TabLeX,一个包含300多万张科学文献中表格图像的大规模基准数据集,通过LaTeX生成以确保结构和内容标注的准确性。该数据集支持表格结构与内容的提取任务,涵盖多种字体、长宽比及真实LaTeX代码,可对深度学习模型进行稳健评估。尽管采用最先进架构,模型在复杂科学表格上仍表现出显著局限性。
Information Extraction (IE) from the tables present in scientific articles is challenging due to complicated tabular representations and complex embedded text. This paper presents TabLeX, a large-scale benchmark dataset comprising table images generated from scientific articles. TabLeX consists of two subsets, one for table structure extraction and the other for table content extraction. Each table image is accompanied by its corresponding LATEX source code. To facilitate the development of robust table IE tools, TabLeX contains images in different aspect ratios and in a variety of fonts. Our analysis sheds light on the shortcomings of current state-of-the-art table extraction models and shows that they fail on even simple table images. Towards the end, we experiment with a transformer-based existing baseline to report performance scores. In contrast to the static benchmarks, we plan to augment this dataset with more complex and diverse tables at regular intervals.
研究动机与目标
- 为科学文档中的表格信息提取(TIE)解决缺乏多样化、高质量数据集的问题。
- 开发一个稳健的预处理流程,从LaTeX渲染的科学文献中提取表格内容。
- 创建一个大规模、多样化的基准数据集(TabLeX),支持表格结构识别(TSR)与内容识别(TCR)任务。
- 在该基准上评估最先进模型,并识别当前TIE系统中的关键失败模式。
- 通过持续引入复杂且多样的科学表格实现数据集扩展,为未来研究奠定基础。
提出的方法
- 预处理流程从LaTeX格式的科学文献中提取表格区域,保留结构与内容信息。
- 使用渲染工具将LaTeX源代码转换为表格图像,确保真实标注的准确性。
- 数据集包含310万张用于结构提取的图像和110万张用于内容提取的图像,图像在12种字体、长宽比和分辨率上具有多样性。
- 每张图像均配以其对应的结构与内容真实LaTeX标记序列。
- 从零开始训练一个基于Transformer的基线模型(TIE-ResNet-Transformer),采用部分ResNet-101和级联Transformer进行特征编码与序列生成。
- 评估使用EMA、BLEU-4和WER指标,评估模型在结构与内容预测任务中的表现。
实验结果
研究问题
- RQ1最先进TIE模型在具有多样化视觉与语义复杂性的复杂真实科学表格图像上的表现如何?
- RQ2当前模型在简单表格结构上的失败程度在多大程度上由数据集偏差或架构限制导致?
- RQ3长宽比、字体和图像质量的变化如何影响模型在表格结构与内容提取中的表现?
- RQ4在TabLeX上训练的基于Transformer的模型能否在多样化科学表格布局中实现稳健性能?
- RQ5当前TIE系统在处理数学内容与复杂格式时的主要失败模式是什么?
主要发现
- TIE-ResNet-Transformer模型在TCD-250数据集(固定长宽比)上的BLEU-4得分为96.75,WER为14.05,表明其在简单表格上的内容生成能力较强。
- 在结构识别任务中,该模型在TSD-250数据集(固定长宽比)上取得74.02%的EMA分数,表现优于内容提取任务。
- 在保持长宽比的图像上,模型性能显著下降,TCD-250上的EMA降至21.19%,表明对图像缩放敏感。
- 模型频繁无法预测内容序列中的大括号({})和美元符号($),而这些符号对LaTeX格式至关重要,当这些标记被排除时,EMA最高可降低50%。
- 在预测结果和真实标签中移除大括号与美元符号后,TCD-250上的EMA分数从21.19%提升至68.78%(保持长宽比)和75.33%(固定长宽比),凸显了这一主要失败模式。
- 数据集表明,当前模型在识别关键结构元素如\\hline方面表现不佳,证据为在完美匹配情况下BLEU得分为89.66而非100.00。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。