Skip to main content
QUICK REVIEW

[论文解读] TURL: Table Understanding through Representation Learning

Xiang Deng, Huan Sun|arXiv (Cornell University)|Jun 26, 2020
Data Quality and Management参考文献 43被引用 43
一句话总结

TURL 引入了一种针对关系型 Web 表格的预训练/微调框架,使用结构感知型 Transformer 和一个 Masked Entity Recovery 目标来学习上下文化表示,在多个表格理解任务上实现强大性能。

ABSTRACT

Relational tables on the Web store a vast amount of knowledge. Owing to the wealth of such tables, there has been tremendous progress on a variety of tasks in the area of table understanding. However, existing work generally relies on heavily-engineered task-specific features and model architectures. In this paper, we present TURL, a novel framework that introduces the pre-training/fine-tuning paradigm to relational Web tables. During pre-training, our framework learns deep contextualized representations on relational tables in an unsupervised manner. Its universal model design with pre-trained representations can be applied to a wide range of tasks with minimal task-specific fine-tuning. Specifically, we propose a structure-aware Transformer encoder to model the row-column structure of relational tables, and present a new Masked Entity Recovery (MER) objective for pre-training to capture the semantics and knowledge in large-scale unlabeled data. We systematically evaluate TURL with a benchmark consisting of 6 different tasks for table understanding (e.g., relation extraction, cell filling). We show that TURL generalizes well to all tasks and substantially outperforms existing methods in almost all instances.

研究动机与目标

  • 为关系型 Web 表格 Introduce 一个预训练/微调范式,以减少任务特定工程的需求。
  • 用能够编码行列结构的结构感知型 Transformer 对关系型表格进行建模。
  • 在预训练中通过 Masked Entity Recovery 目标来捕捉表格中的事实知识。
  • 提供一个可 universal 的架构,能够在最小化微调下适配多样化的下游任务。

提出的方法

  • 将表格组件(标题、表头、实体)嵌入为可分离的输入表示。
  • 使用具有可视性矩阵的结构感知型 Transformer,强制执行基于行/列的注意力约束。
  • 通过 Masked Language Model (MLM) 和 Masked Entity Recovery (MER) 目标进行预训练,以学习词汇及事实知识。
  • 从 TinyBERT 初始化,在维基百科的 570K 个关系型表格上训练。
  • 在六个下游任务上对通用模型进行微调,使用任务特定的带标签数据。

实验结果

研究问题

  • RQ1TURL 是否能够在无监督的预训练阶段学习关系型 Web 表格的上下文化表示?
  • RQ2具有可视性掩蔽的结构感知型 Transformer 是否能够有效捕捉行列结构的表格?
  • RQ3Masked Entity Recovery 目标是否提升表格单元格的事实知识学习?
  • RQ4预训练模型在多样化的下游表格理解任务上的泛化能力如何?

主要发现

  • TURL 在评估的任务中显著优于现有的面向任务的和基于浅层 Word2Vec 的方法。
  • 该框架对一组多样化的表格理解任务具有良好的泛化能力,在最少的任务特定微调下即可实现。
  • 一个带可视性矩阵的结构感知编码器在自注意力阶段有效建模了关系型表格的行列结构。
  • MER 与 MLM 目标共同促成了对大规模无标签表格的词汇语义和事实实体知识的学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。