Skip to main content
QUICK REVIEW

[论文解读] Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

Changyuan Yu, Rui Zhang|arXiv (Cornell University)|Sep 24, 2018
Natural Language Processing Techniques被引用 153
一句话总结

Spider 引入了一个大型跨领域的 text-to-SQL 数据集,包含 200 个数据库和 1W+ 个问题,用于测试对未见 SQL 查询和新数据库模式的泛化能力;最先进的模型在此上显示出显著差距。

ABSTRACT

We present Spider, a large-scale, complex and cross-domain semantic parsing and text-to-SQL dataset annotated by 11 college students. It consists of 10,181 questions and 5,693 unique complex SQL queries on 200 databases with multiple tables, covering 138 different domains. We define a new complex and cross-domain semantic parsing and text-to-SQL task where different complex SQL queries and databases appear in train and test sets. In this way, the task requires the model to generalize well to both new SQL queries and new database schemas. Spider is distinct from most of the previous semantic parsing tasks because they all use a single database and the exact same programs in the train set and the test set. We experiment with various state-of-the-art models and the best model achieves only 12.4% exact matching accuracy on a database split setting. This shows that Spider presents a strong challenge for future research. Our dataset and task are publicly available at https://yale-lily.github.io/spider

研究动机与目标

  • 创建一个大型、高质量、跨领域的 text-to-SQL 数据集,包含复杂的 SQL 查询和多表数据库。
  • 使模型能够在新数据库上的泛化进行评估,而不仅仅是在固定模式内的新查询上评估。
  • 促进一个现实的语义解析任务,要求跨领域理解自然语言和数据库模式。
  • 提供多种 SQL 模式和一系列数据库模式,以评估模型的鲁棒性。

提出的方法

  • 组建覆盖 138 个领域、包含多张表的 200 个数据库。
  • 对这些数据库中的 10,181 个自然语言问题进行标注,配套 5,693 个复杂 SQL 查询。
  • 确保问题覆盖广泛的 SQL 模式,包括连接、嵌套、GROUP BY、HAVING 以及集合运算。
  • 审查与改述过程,保持等价问题中 SQL 模板的清晰性和一致性。
  • 使用精确匹配、逐组件 F1 评估模型,并记录数据库切分与示例切分的泛化。
  • 改编现有的 text-to-SQL 模型(Seq2Seq、Seq2Seq+Attention、Seq2Seq+Copying、SQLNet、TypeSQL)以处理跨数据库模式和复杂查询。

实验结果

研究问题

  • RQ1模型是否能够在具有复杂模式的新数据库上对未见的 SQL 查询进行泛化?
  • RQ2在跨不同数据库进行训练与测试(跨域切分)时,最先进的 text-to-SQL 模型表现如何?
  • RQ3在跨域评估下,SQL 的哪些方面(例如 WHERE、JOIN、嵌套查询)最具挑战性?
  • RQ4数据库模式复杂度(例如外键数量)如何影响模型性能?
  • RQ5将模式/内容信息(如 TypeSQL 中所示)纳入是否能提升跨数据库泛化?

主要发现

  • 在 Spider 上,表现最好的模型仍然挣扎,在数据库切分评估下仅达到 12.4% 的精确匹配。
  • SQLNet 和 TypeSQL 在各个切分和组件上显著超越 Seq2Seq 基线。
  • WHERE 子句和列预测在各模型中最易出错,反映其组合难度。
  • 当数据库模式复杂度增加(外键更多)时,模型性能下降。
  • Example-split(训练/测试中为同一数据库)比 database-split(数据库不重叠)获得更高的准确率,突出跨域泛化挑战。
  • Spider 的跨域设置揭示了当前模型与真实语义解析泛化之间的巨大差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。