QUICK REVIEW

[论文解读] Editing-Based SQL Query Generation for Cross-Domain Context-Dependent Questions

Rui Zhang, Yu Tao|arXiv (Cornell University)|Sep 2, 2019

Topic Modeling参考文献 53被引用 49

一句话总结

本文提出一种基于编辑的编码器-解码器模型，通过编辑先前预测的查询来生成 SQL，并增设了话语-表格编码器和表格感知的解码器，以处理跨领域的上下文相关文本到 SQL 的转换。它在 SParC 和 Spider 数据集上优于现有基线，特别是在查询编辑和基于 BERT 的话语-表格表示方面的改进。

ABSTRACT

We focus on the cross-domain context-dependent text-to-SQL generation task. Based on the observation that adjacent natural language questions are often linguistically dependent and their corresponding SQL queries tend to overlap, we utilize the interaction history by editing the previous predicted query to improve the generation quality. Our editing mechanism views SQL as sequences and reuses generation results at the token level in a simple manner. It is flexible to change individual tokens and robust to error propagation. Furthermore, to deal with complex table structures in different domains, we employ an utterance-table encoder and a table-aware decoder to incorporate the context of the user utterance and the table schema. We evaluate our approach on the SParC dataset and demonstrate the benefit of editing compared with the state-of-the-art baselines which generate SQL from scratch. Our code is available at https://github.com/ryanzhumich/sparc_atis_pytorch.

研究动机与目标

动机：在跨领域、上下文相关的文本到 SQL 生成任务中，历史信息在不同轮次之间起作用。
利用对先前生成的 SQL 查询的编辑来重用生成结果并减少错误传播。
通过话语-表格编码器和表格感知解码器整合复杂的表格模式。
在 SParC（跨域、上下文相关）和 Spider（跨域但上下文无关）数据集上进行评估。
展示编辑相较于逐段复制的鲁棒性，并量化基于 BERT 的编码带来的收益。

提出的方法

使用一个具备轮次感知的話语-表格编码器对用户话语和表格模式进行编码，该编码器采用双向 LSTM，并在话语与列头之间进行协同注意力；可选地使用基于 BERT 的嵌入来表示话语-表格。
维护一个交互级历史编码器，带轮次注意力，以捕捉跨轮次的依赖。
使用一个表格感知的解码器对 SQL 进行解码，该解码器对列头和话语标记进行注意，并输出对 SQL 关键字或列头的分布；通过双向评分机制在 SQL 关键字与列头之间自适应输出。
将解码器扩展为查询编辑机制，该机制在先前查询的条件下工作，并学习一个拷贝开关 p_copy，以便从先前查询中拷贝或插入新标记（P(y_k)），利用前一查询分布和当前输出分布的组合。
加入一个查询注意力组件，对先前查询的标记和先前轮次进行关注，以进一步指导编辑决策。

实验结果

研究问题

RQ1与从头生成相比，编辑先前生成的 SQL 查询是否能提升跨域、上下文相关的文本到 SQL 生成？
RQ2带有协同注意力的话语-表格编码器和表格感知解码器是否更好地处理跨域的多样化模式？
RQ3查询编辑机制在多轮交互中的错误传播鲁棒性方面有何影响？
RQ4使用基于 BERT 的话语-表格嵌入对跨域文本到 SQL 的性能有何影响？
RQ5在 SParC 和 Spider 数据集上，所提组件在问题匹配和交互匹配指标方面的表现如何？

主要发现

基于编辑的生成在 SParC 上优于从头生成 SQL 的现有最先进基线，在交互相关度量指标上取得显著提升。
使用话语-表格嵌入（尤其是结合 BERT）显著提升跨域性能，在 Spider 上取得强劲结果，在 SParC 上获得显著提升。
查询编辑机制相较于完整段落复制对错误传播具有更强鲁棒性，尤其是与基于 BERT 的编码结合时。
轮次注意力与表格-话语协同注意力有助于模型处理跨域模式和跨轮次的上下文依赖。
在 SParC 上，当使用带有编辑、查询注意力并结合预测历史时，模型在问题匹配准确率和交互匹配准确率方面超过基线；使用真实历史时，编辑得到的增益更大。
在 Spider（上下文无关）中，话语-表格 BERT 嵌入将开发集和测试集分数提升到与最先进跨域模型相当的水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。