QUICK REVIEW

[论文解读] TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data

Pengcheng Yin, Graham Neubig|arXiv (Cornell University)|May 17, 2020

Topic Modeling参考文献 54被引用 36

一句话总结

TaBert 预训练一个 Transformer，联合编码自然语言和（半）结构化表格，从而在文本到 SQL 的语义解析和弱监督表格问答基准上实现改进。

ABSTRACT

Recent years have witnessed the burgeoning of pretrained language models (LMs) for text-based natural language (NL) understanding tasks. Such models are typically trained on free-form NL text, hence may not be suitable for tasks like semantic parsing over structured data, which require reasoning over both free-form NL questions and structured tabular data (e.g., database tables). In this paper we present TaBERT, a pretrained LM that jointly learns representations for NL sentences and (semi-)structured tables. TaBERT is trained on a large corpus of 26 million tables and their English contexts. In experiments, neural semantic parsers using TaBERT as feature representation layers achieve new best results on the challenging weakly-supervised semantic parsing benchmark WikiTableQuestions, while performing competitively on the text-to-SQL dataset Spider. Implementation of the model will be available at http://fburl.com/TaBERT .

研究动机与目标

激发需要同时捕捉自由文本 NL 与表格模式的表示的动机。
提出 TaBert，一个基于 BERT 的预训练框架，通过内容感知快照和垂直注意力对话语和表格结构进行编码。
展示 TaBert 可以作为语义解析器的插件，在基于 SQL 的以及弱监督表格问答任务上提升性能。

提出的方法

TaBert 将表格内容线性化为逐行的序列，并使用 Transformer 编码器生成对话语和单元格的按行表示。
内容快照对输入话语采样最相关的行数（K）以高效处理大型表格。
垂直自注意力层在相同列的各行之间进行跨行注意，以生成列表示。
列表示同时包含列名/类型和采样的单元格值（通过 Masked Column Prediction 和 Cell Value Recovery 目标）。
预训练数据由 26.6 百万对平行表格–NL 示例组成，来自 English Wikipedia 和 WDC WebTable 语料库，使用 MLM 来建模 NL 上下文，使用 MCP/CVR 目标进行模式/内容对齐。
TaBert 作为语义解析器的直接替代编码器进行评估，在两个制 regime: 监督型 text-to-SQL (Spider) 和弱监督 WikiTableQuestions。

实验结果

研究问题

RQ1TaBert 学得的联合 NL 与表格表示能否提升对表格的语义解析？
RQ2在对齐的 NL 与表格数据上进行的预训练是否能在结构化（基于 SQL）和半结构化（表格问答）任务之间迁移？
RQ3内容快照和垂直注意力对表驱动问答的编码质量有何影响？
RQ4TaBert 的变体（base vs large；不同的快照大小）在这些任务上与 BERT 基线相比如何？

主要发现

使用大模型和内容快照的 TaBert 在 WikiTableQuestions 上实现单模型的最先进性能。
TaBert 在 Spider 上相较于强基线提供具有竞争力或更优的 exact-match 精度，缩小与顶尖系统的差距。
内容快照和垂直注意力显著优于无快照或单行编码的性能，特别是对 TaBert。
在大规模并行 NL–表格数据上的预训练比单独使用 Bert 能产生更好的联合表示。
TaBert 的表示在结构化与半结构化表格问答范式中都有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。