[论文解读] TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data
TaBert 预训练一个 Transformer,联合编码自然语言和(半)结构化表格,从而在文本到 SQL 的语义解析和弱监督表格问答基准上实现改进。
Recent years have witnessed the burgeoning of pretrained language models (LMs) for text-based natural language (NL) understanding tasks. Such models are typically trained on free-form NL text, hence may not be suitable for tasks like semantic parsing over structured data, which require reasoning over both free-form NL questions and structured tabular data (e.g., database tables). In this paper we present TaBERT, a pretrained LM that jointly learns representations for NL sentences and (semi-)structured tables. TaBERT is trained on a large corpus of 26 million tables and their English contexts. In experiments, neural semantic parsers using TaBERT as feature representation layers achieve new best results on the challenging weakly-supervised semantic parsing benchmark WikiTableQuestions, while performing competitively on the text-to-SQL dataset Spider. Implementation of the model will be available at http://fburl.com/TaBERT .
研究动机与目标
- 激发需要同时捕捉自由文本 NL 与表格模式的表示的动机。
- 提出 TaBert,一个基于 BERT 的预训练框架,通过内容感知快照和垂直注意力对话语和表格结构进行编码。
- 展示 TaBert 可以作为语义解析器的插件,在基于 SQL 的以及弱监督表格问答任务上提升性能。
提出的方法
- TaBert 将表格内容线性化为逐行的序列,并使用 Transformer 编码器生成对话语和单元格的按行表示。
- 内容快照对输入话语采样最相关的行数(K)以高效处理大型表格。
- 垂直自注意力层在相同列的各行之间进行跨行注意,以生成列表示。
- 列表示同时包含列名/类型和采样的单元格值(通过 Masked Column Prediction 和 Cell Value Recovery 目标)。
- 预训练数据由 26.6 百万对平行表格–NL 示例组成,来自 English Wikipedia 和 WDC WebTable 语料库,使用 MLM 来建模 NL 上下文,使用 MCP/CVR 目标进行模式/内容对齐。
- TaBert 作为语义解析器的直接替代编码器进行评估,在两个制 regime: 监督型 text-to-SQL (Spider) 和弱监督 WikiTableQuestions。
实验结果
研究问题
- RQ1TaBert 学得的联合 NL 与表格表示能否提升对表格的语义解析?
- RQ2在对齐的 NL 与表格数据上进行的预训练是否能在结构化(基于 SQL)和半结构化(表格问答)任务之间迁移?
- RQ3内容快照和垂直注意力对表驱动问答的编码质量有何影响?
- RQ4TaBert 的变体(base vs large;不同的快照大小)在这些任务上与 BERT 基线相比如何?
主要发现
- 使用大模型和内容快照的 TaBert 在 WikiTableQuestions 上实现单模型的最先进性能。
- TaBert 在 Spider 上相较于强基线提供具有竞争力或更优的 exact-match 精度,缩小与顶尖系统的差距。
- 内容快照和垂直注意力显著优于无快照或单行编码的性能,特别是对 TaBert。
- 在大规模并行 NL–表格数据上的预训练比单独使用 Bert 能产生更好的联合表示。
- TaBert 的表示在结构化与半结构化表格问答范式中都有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。