[论文解读] TAPEX: Table Pre-training via Learning a Neural SQL Executor
TaPEx 通过模仿神经 SQL 执行器在合成 SQL-表语料上进行语言模型的预训练,在四个与表相关的基准上达到最先进的结果。
Recent progress in language model pre-training has achieved a great success via leveraging large-scale unstructured textual data. However, it is still a challenge to apply pre-training on structured tabular data due to the absence of large-scale high-quality tabular data. In this paper, we propose TAPEX to show that table pre-training can be achieved by learning a neural SQL executor over a synthetic corpus, which is obtained by automatically synthesizing executable SQL queries and their execution outputs. TAPEX addresses the data scarcity challenge via guiding the language model to mimic a SQL executor on the diverse, large-scale and high-quality synthetic corpus. We evaluate TAPEX on four benchmark datasets. Experimental results demonstrate that TAPEX outperforms previous table pre-training approaches by a large margin and achieves new state-of-the-art results on all of them. This includes the improvements on the weakly-supervised WikiSQL denotation accuracy to 89.5% (+2.3%), the WikiTableQuestions denotation accuracy to 57.5% (+4.8%), the SQA denotation accuracy to 74.5% (+3.5%), and the TabFact accuracy to 84.2% (+3.2%). To our knowledge, this is the first work to exploit table pre-training via synthetic executable programs and to achieve new state-of-the-art results on various downstream tasks. Our code can be found at https://github.com/microsoft/Table-Pretraining.
研究动机与目标
- 通过创建一个大规模、高质量的合成语料库来解决表格预训练中的数据稀缺问题。
- 开发一个以执行为中心的预训练任务,训练模型在表格上模仿 SQL 执行器。
- 将表格预训练与编码器-解码器架构整合,以提升下游的表格推理任务。
- 在多样化的表格问答和事实核验基准上对 TaPEx 进行实证评估。
- 与现有的表格预训练方法相比,展示在低数据情形下的效率与有效性。
提出的方法
- 使用一个编码器-解码器语言模型(BART)作为骨干网络来建模表格感知输入。
- 将表格展平为带有指示表头和行的特殊标记的序列,使其能够直接输入到模型中。
- 对模型进行预训练,使其在给定 SQL 查询和表格时输出 SQL 执行结果,从而实质上使模型成为一个神经 SQL 执行器。
- 通过在公开可用的表上实例化 SQL 模板(例如 WikiTableQuestions)并过滤掉空结果,合成一个大规模的预训练语料库。
- 通过将输出表述为序列,对下游任务(TableQA 和 TableFV)进行微调,从而实现答案的灵活生成以及二元验证。
- 可选地进行多任务微调,并在推理阶段探索基于执行的解码。
实验结果
研究问题
- RQ1在表格上对语言模型进行执行 SQL 风格查询的预训练,是否能提升表格推理任务?
- RQ2与先前的表格预训练方法相比,TaPEx 在多样化的表格问答和事实核验基准上的表现如何?
- RQ3合成的、基于执行的预训练是否比传统的表格预训练方法在数据效率上更高?
- RQ4该方法在低资源下游场景是否具备良好的泛化性?
主要发现
- TaPEx 在四个基准上达到新的最先进结果:WikiSQL-Weak、WikiTableQuestions、SQA 和 TabFact。
- 在 WikiSQL-Weak 的测试集上,TaPEx 达到 89.5% 的表示意思准确率,较之前最佳提升 2.3 个百分点。
- 在 WikiTableQuestions 上,TaPEx 达到 57.5% 的表示意思准确率(测试),较先前最佳提升 4.8 点。
- 在 SQA 上,TaPEx 实现 74.5% 的 ALL 表示意思准确率(测试集),在对话和句子级度量方面均有显著提升。
- 在 TabFact 上,TaPEx 达到 74.5% ALL 准确率,并在 Q1–Q3 的子标准上表现出色,超过先前的模型。
- TaPEx 在低数据情境下表现出色,并且在较小的预训练语料库下也能获得显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。