[论文解读] PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML
该论文提出一个四子任务管线(表格结构识别、文本行检测、文本行识别和框分配),基于 MASTER 和 PSENet 将表格图像转换为 HTML,在开发数据上实现 TEDs 分数为 96.84%,在最终评估上为 96.32%。
This paper presents our solution for ICDAR 2021 competition on scientific literature parsing taskB: table recognition to HTML. In our method, we divide the table content recognition task into foursub-tasks: table structure recognition, text line detection, text line recognition, and box assignment.Our table structure recognition algorithm is customized based on MASTER [1], a robust image textrecognition algorithm. PSENet [2] is used to detect each text line in the table image. For text linerecognition, our model is also built on MASTER. Finally, in the box assignment phase, we associatedthe text boxes detected by PSENet with the structure item reconstructed by table structure prediction,and fill the recognized content of the text line into the corresponding item. Our proposed methodachieves a 96.84% TEDS score on 9,115 validation samples in the development phase, and a 96.32%TEDS score on 9,064 samples in the final evaluation phase.
研究动机与目标
- 为科学文献解析中将表格图像重构为 HTML 的任务提供动机。
- 提出一个四子任务框架,以在表格转 HTML 的转换中分离关注点。
- 在结构预测和文本行识别中都利用 MASTER。
- 使用 PSENet 进行鲁棒的文本行检测,并设计一个填充 HTML 单元格的框分配策略。
提出的方法
- 将问题分解为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。
- 将 MASTER 定制为一个表格结构分支和一个独立的框回归分支。
- 使用 PSENet 在表格图像中检测文本行。
- 基于 MASTER 在单行和多行文本混合数据集上训练文本行识别器。
- 应用三条规则的框分配策略(Center Point Rule、IOU Rule、Distance Rule)将检测到的文本框映射到 HTML 表格单元格。
- 在 PubTabNet 数据上以 TEDS 指标评估端到端 HTML 生成。
实验结果
研究问题
- RQ1一个四子任务管线是否能够从图像中可靠地重建具有高结构保真度的表格 HTML?
- RQ2结构预测和文本行识别如何相互作用以最大化以 TEDS 衡量的 HTML 保真度?
- RQ3匹配策略(Center Point、IOU、Distance)对最终 HTML 内容准确性有何影响?
- RQ4数据增强、优化器选择和同步技术对端到端 TEDS 性能有何影响?
主要发现
- 在开发阶段验证集上达到 96.84% TEDS(9,115 个样本)。
- 在最终评估集上达到 96.32% TEDS(9,064 个样本)。
- 端到端方法强调表格结构预测的准确性对高 TEDS 分数的重要性。
- 使用 PSENet 进行文本行检测在表格单元格内提供鲁棒的行定位。
- 框分配规则(Center Point、IOU、Distance)有效地将文本框映射到重建的表格结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。