Skip to main content
QUICK REVIEW

[论文解读] TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data

Pengcheng Yin, Graham Neubig|arXiv (Cornell University)|May 17, 2020
Topic Modeling参考文献 54被引用 36
一句话总结

TaBert 预训练一个 Transformer,联合编码自然语言和(半)结构化表格,从而在文本到 SQL 的语义解析和弱监督表格问答基准上实现改进。

ABSTRACT

Recent years have witnessed the burgeoning of pretrained language models (LMs) for text-based natural language (NL) understanding tasks. Such models are typically trained on free-form NL text, hence may not be suitable for tasks like semantic parsing over structured data, which require reasoning over both free-form NL questions and structured tabular data (e.g., database tables). In this paper we present TaBERT, a pretrained LM that jointly learns representations for NL sentences and (semi-)structured tables. TaBERT is trained on a large corpus of 26 million tables and their English contexts. In experiments, neural semantic parsers using TaBERT as feature representation layers achieve new best results on the challenging weakly-supervised semantic parsing benchmark WikiTableQuestions, while performing competitively on the text-to-SQL dataset Spider. Implementation of the model will be available at http://fburl.com/TaBERT .

研究动机与目标

  • 激发需要同时捕捉自由文本 NL 与表格模式的表示的动机。
  • 提出 TaBert,一个基于 BERT 的预训练框架,通过内容感知快照和垂直注意力对话语和表格结构进行编码。
  • 展示 TaBert 可以作为语义解析器的插件,在基于 SQL 的以及弱监督表格问答任务上提升性能。

提出的方法

  • TaBert 将表格内容线性化为逐行的序列,并使用 Transformer 编码器生成对话语和单元格的按行表示。
  • 内容快照对输入话语采样最相关的行数(K)以高效处理大型表格。
  • 垂直自注意力层在相同列的各行之间进行跨行注意,以生成列表示。
  • 列表示同时包含列名/类型和采样的单元格值(通过 Masked Column Prediction 和 Cell Value Recovery 目标)。
  • 预训练数据由 26.6 百万对平行表格–NL 示例组成,来自 English Wikipedia 和 WDC WebTable 语料库,使用 MLM 来建模 NL 上下文,使用 MCP/CVR 目标进行模式/内容对齐。
  • TaBert 作为语义解析器的直接替代编码器进行评估,在两个制 regime: 监督型 text-to-SQL (Spider) 和弱监督 WikiTableQuestions。

实验结果

研究问题

  • RQ1TaBert 学得的联合 NL 与表格表示能否提升对表格的语义解析?
  • RQ2在对齐的 NL 与表格数据上进行的预训练是否能在结构化(基于 SQL)和半结构化(表格问答)任务之间迁移?
  • RQ3内容快照和垂直注意力对表驱动问答的编码质量有何影响?
  • RQ4TaBert 的变体(base vs large;不同的快照大小)在这些任务上与 BERT 基线相比如何?

主要发现

  • 使用大模型和内容快照的 TaBert 在 WikiTableQuestions 上实现单模型的最先进性能。
  • TaBert 在 Spider 上相较于强基线提供具有竞争力或更优的 exact-match 精度,缩小与顶尖系统的差距。
  • 内容快照和垂直注意力显著优于无快照或单行编码的性能,特别是对 TaBert。
  • 在大规模并行 NL–表格数据上的预训练比单独使用 Bert 能产生更好的联合表示。
  • TaBert 的表示在结构化与半结构化表格问答范式中都有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。