Skip to main content
QUICK REVIEW

[论文解读] Table2Charts: Learning Shared Representations for Recommending Charts on Multi-dimensional Data

Mengyu Zhou, Qingtao Li|arXiv (Cornell University)|Aug 24, 2020
Time Series Analysis and Forecasting参考文献 3被引用 6
一句话总结

Table2Charts 提出了一种深度强化学习框架,通过从 196k 个表格和 306k 个图表中学习共享表征,以推荐合适的可视化形式。通过使用带有复制机制的序列生成和启发式搜索,该方法在单类型和多类型图表推荐任务中,top-3 的召回率均超过 0.61,top-1 的召回率均超过 0.49。

ABSTRACT

It is common for people to create different types of charts to explore a multi-dimensional dataset (table). However, to build an intelligent assistant that recommends commonly composed charts, the fundamental problems of multi-dialect unification, imbalanced data and open vocabulary exist. In this paper, we propose Table2Charts framework which learns common patterns from a large corpus of (table, charts) pairs. Based on deep Q-learning with copying mechanism and heuristic searching, Table2Charts does table-to-sequence generation, where each sequence follows a chart template. On a large spreadsheet corpus with 196k tables and 306k charts, we show that Table2Charts could learn a shared representation of table fields so that tasks on different chart types could mutually enhance each other. Table2Charts has >0.61 recall at top-3 and >0.49 recall at top-1 for both single-type and multi-type chart recommendation tasks.

研究动机与目标

  • 解决在数据探索中为多维表格推荐合适图表的挑战。
  • 克服图表推荐中的根本性问题,包括多语言统一、类别不平衡和开放词汇生成。
  • 通过学习表格字段的共享表征,实现不同图表类型之间的相互增强。
  • 开发一个可扩展的端到端框架,用于表格到图表的生成,使其能泛化于多种图表类型。

提出的方法

  • 利用带有复制机制的深度 Q 学习,从表格输入生成图表序列。
  • 将图表推荐建模为表格到序列的生成任务,其中每个序列对应一个图表模板。
  • 使用启发式搜索以提升生成质量并探索多样化的图表配置。
  • 在大规模语料库(196k 个表格和 306k 个(表格, 图表)对)上进行训练,以学习表格字段的共享表征。
  • 应用注意力机制和序列建模,对齐表格属性与图表结构及语义。
  • 通过学习统一的表征空间,同时优化单类型和多类型图表推荐。

实验结果

研究问题

  • RQ1表格字段的统一表征是否能提升在多种图表类型上的推荐性能?
  • RQ2带有复制机制的深度 Q 学习在从表格数据生成准确且多样化的图表序列方面效果如何?
  • RQ3多类型图表推荐任务在训练过程中学习到的共享表征方面,能获得多大程度的收益?
  • RQ4该框架如何应对现实世界图表推荐中的数据不平衡和开放词汇挑战?
  • RQ5该模型在 top-k 图表推荐中的表现如何,特别是在 top-1 和 top-3 的召回率方面?

主要发现

  • Table2Charts 在单类型和多类型图表推荐任务中,top-3 的召回率均超过 0.61。
  • 该模型在所有推荐场景中,top-1 的召回率均超过 0.49,表明在最高排名建议中具有较强的精确度。
  • 共享表征学习实现了不同图表类型之间的相互增强,提升了整体泛化能力。
  • 复制机制有效处理了罕见或未登录的图表元素,支持开放词汇生成。
  • 启发式搜索与深度 Q 学习相结合,提升了序列生成的质量和多样性。
  • 该框架在 196k 个表格和 306k 个图表的大规模语料库上表现出可扩展性和鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。