Skip to main content
QUICK REVIEW

[论文解读] Grammar-based Neural Text-to-SQL Generation

Kevin Lin, Ben Bogin|arXiv (Cornell University)|May 30, 2019
Topic Modeling参考文献 34被引用 45
一句话总结

引入一种基于语法的解码方法,用于文本到 SQL,使用动态的、与模式依赖的语法和运行时约束,在 ATIS 和 Spider 数据集上取得显著改进。

ABSTRACT

The sequence-to-sequence paradigm employed by neural text-to-SQL models typically performs token-level decoding and does not consider generating SQL hierarchically from a grammar. Grammar-based decoding has shown significant improvements for other semantic parsing tasks, but SQL and other general programming languages have complexities not present in logical formalisms that make writing hierarchical grammars difficult. We introduce techniques to handle these complexities, showing how to construct a schema-dependent grammar with minimal over-generation. We analyze these techniques on ATIS and Spider, two challenging text-to-SQL datasets, demonstrating that they yield 14--18\% relative reductions in error.

研究动机与目标

  • 将 NLIDB 的动机定位为把自然语言映射到 SQL,并通过使用基于语法的解码来超越基于令牌的解码。
  • 开发一个浅层、具模式感知的 SQL 语法,尽量减少过度生成,同时覆盖大多数现实世界查询。
  • 纳入运行时约束以及基于话语/模式的规则生成,以应对模式的变异性和未见数据库。
  • 在 ATIS 和 Spider 上评估该方法,以展示相较于先前的基于令牌的方法的改进。

提出的方法

  • 提出一个基础 SQL 语法,并用用于表和列的模式依赖规则进行增强。
  • 将规则分为全局(基础语法)和链接的(话语特定),以处理未见的标识符。
  • 实现运行时约束以确保有效的 SQL 结构,尤其是连接和列使用方面。
  • 采用两部分编码器-解码器:一个生成标识符的链接嵌入的编码器,以及一个选择语法规则的解码器。
  • 将 SQL AST 线性化为一系列产生规则,用于监督训练。
  • 通过基于启发式字符串匹配的标识符链接来将话语标记连接到数据库标识符,并生成带类型信息的链接规则。

实验结果

研究问题

  • RQ1具模式相关的语法结合运行时约束,是否能在文本到 SQL 的生成中减少过度生成?
  • RQ2将话语标记动态链接到数据库标识符如何影响 ATIS 与 Spider 的准确率?
  • RQ3将全局规则与链接规则分离对模型对未见模式的泛化能力有何影响?
  • RQ4运行时约束比单独依赖基础语法更能提升质量吗?

主要发现

数据集开发集Q开发集D测试集Q测试集D
ATIS (contextual) – Suhr et al. 2018 baseline37.562.543.669.2
ATIS (Ours)39.165.844.173.7
Spider – Dev18.919.7
Spider – Ours34.833.8
  • 基于语法的模型在 ATIS 上的指称准确性实现了 4.5% 的绝对提升,在 Spider 上的完全成分匹配实现了 14.1% 的绝对提升,相较于以往工作。
  • 具有模式依赖规则和运行时约束的语法通过限制无效输出并利用模式信息来提高准确性。
  • 带类型感知链接嵌入的标识符链接提高了性能,尤其是对未见标识符。
  • 消融实验表明链接规则、链接嵌入和数值约束检查各自对性能提升有贡献;移除任何一个都会降低指称正确性或组件正确性。
  • 在 ATIS 中对上下文(先前话语)的处理在提供历史上下文时带来额外的改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。