[论文解读] GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing
GraPPa 通过对文本到 SQL 的语法增强的合成数据进行预训练,在全监督和弱监督设置下,在四个表格语义解析基准上达到最新水平。
We present GraPPa, an effective pre-training approach for table semantic parsing that learns a compositional inductive bias in the joint representations of textual and tabular data. We construct synthetic question-SQL pairs over high-quality tables via a synchronous context-free grammar (SCFG) induced from existing text-to-SQL datasets. We pre-train our model on the synthetic data using a novel text-schema linking objective that predicts the syntactic role of a table field in the SQL for each question-SQL pair. To maintain the model's ability to represent real-world data, we also include masked language modeling (MLM) over several existing table-and-language datasets to regularize the pre-training process. On four popular fully supervised and weakly supervised table semantic parsing benchmarks, GraPPa significantly outperforms RoBERTa-large as the feature representation layers and establishes new state-of-the-art results on all of them.
研究动机与目标
- 通过将 NL 查询绑定到表格模式来提升表格语义解析的一般化能力。
- 通过语法引导的数据合成向语言模型注入组合性归纳偏置。
- 通过平衡合成数据与表相关的 MLM 正则化来维持真实世界数据上的模型容量。
- Demonstrate data-efficient pre-training that yields strong downstream performance across multiple benchmarks.
提出的方法
- 从文本到 SQL 数据集引入一个同步上下文无关文法(SCFG)来生成以表格为基础的合成问题-SQL 对。
- 从 SCFG 中采样,使用 WikiTables 及 Spider/WikiSQL 表创建大型合成数据集(475k 示例)。
- 用 RoBERTa 基础的模型(GraPPa)进行两重目标的预训练:表格语言数据的 MLM 以及用于列级 SQL 绑定的 SQL 语义预测(SSP)。
- 在下游解析器(如 RAT-SQL)上微调 Grappa,以评估跨域表格语义解析的性能。
- 通过对与表相关的说法进行 MLM 来正则化预训练,将合成数据与真实表格语言数据相平衡。
实验结果
研究问题
- RQ1Grappa 是否在跨域表格语义解析方面提供比基于 RoBERTa 的基线更好的表征?
- RQ2两种预训练目标(MLM 和 SSP)及它们的组合对下游性能有何影响?
- RQ3语法增强的预训练在完全监督和弱监督设置下对未知表的泛化能力有多好?
主要发现
- Grappa 在四个语义解析任务上始终优于 RoBERTa 基线。
- Spider:Grappa 结合 MLM+SSP 实现新一代最优,领先前一最佳约 4%。
- WikiSQL 全监督:Grappa 在资源不足(10k)设置下将 SQLova 提升了 3.0%。
- WikiTableQuestions:Grappa 结合 MLM+SSP 取得新一代最优,并比 RoBERTa 基线提升超过 6%。
- 弱监督 WikiSQL:Grappa 结合 MLM+SSP 达到 84.7% 的执行准确率,达到新一代最优。
- 在所有任务中,通常 MLM+SSP 的组合优于单独的 MLM 或 SSP,凸显平衡预训练的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。