Skip to main content
QUICK REVIEW

[论文解读] Data Extraction from Charts via Single Deep Neural Network

Xiaoyi Liu, Diego Klabjan|arXiv (Cornell University)|Jun 6, 2019
Handwritten Text Recognition Techniques参考文献 24被引用 34
一句话总结

本文提出一个单一的深度神经网络框架,用于执行图表类型识别、对象检测、文本识别和对象匹配,从条形图和饼图中提取数据,在模拟数据上优于基线,在公开数据集上表现各异。

ABSTRACT

Automatic data extraction from charts is challenging for two reasons: there exist many relations among objects in a chart, which is not a common consideration in general computer vision problems; and different types of charts may not be processed by the same model. To address these problems, we propose a framework of a single deep neural network, which consists of object detection, text recognition and object matching modules. The framework handles both bar and pie charts, and it may also be extended to other types of charts by slight revisions and by augmenting the training data. Our model performs successfully on 79.4% of test simulated bar charts and 88.0% of test simulated pie charts, while for charts outside of the training domain it degrades for 57.5% and 62.3%, respectively.

研究动机与目标

  • 推动从图表自动提取数据以用于知识管理和下游分析。
  • 开发一个能够同时处理条形图和饼图的统一深度学习框架。
  • 通过避免手工规则、依赖端到端学习来降低脆弱性,以学习图表组件及其关系。

提出的方法

  • 一个单一模型执行图表类型分类的级联,然后以 Faster-RCNN 作为检测图表元素的主干网络。
  • 在 Faster-RCNN 上增加文本识别分支(CRNN)和受 Relation Networks 启发的对象匹配分支,用于配对图表组件(例如柱状图与图例、柱状图与 y 轴数值)。
  • 对于饼图,添加角度/边界预测并使用 RNN 推断扇区角度,并旋转特征图以使扇区与图例匹配。
  • 通过预测文本角度并在 CRNN 处理前应用旋转后的特征图来引入方向感知的文本识别。
  • 在模拟条形图/饼图和公开数据集上训练;使用多任务损失,包含检测、文本、对象匹配,以及(对饼图)角度预测的分量。

实验结果

研究问题

  • RQ1单个神经模型能否联合检测图表组件、识别相关文本并推理跨组件关系以重构图表数据?
  • RQ2统一模型从模拟训练数据到公开图表数据集及手工标注图像的泛化能力如何?
  • RQ3在统一框架中需要做哪些适配来处理非矩形的饼图扇区以及坐标轴文本的方向?
  • RQ4包含角度/边界预测和 RN 风格匹配对数据提取准确性的影响是什么?
  • RQ5图表类型识别如何影响端到端的提取性能?

主要发现

  • 该框架在模拟条形图上的准确率为 79.4%,在模拟饼图上的准确率为 88.0%。
  • 在 FigureQA 数据和 Google Images 上,条形图的表现降至 57.5%,饼图为 62.3%。
  • 在模拟数据的条形图上,10个对象类别的平均精确度为 92.6%,高于 FigureQA(84.5%)和 Annotated(59.7%)。
  • 饼图对象级指标的平均精度在模拟数据为 98.6%,在 Annotated 数据为 80.4%;整体 ALL 精度在 Simul 为 88.0%,在 Excel 集为 68.6%。
  • 饼图模型受益于边界角度预测分支和方向感知、旋转特征图的扇区匹配策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。