[论文解读] mRAT-SQL+GAP:A Portuguese Text-to-SQL Transformer
本文提出 mRAT-SQL+GAP,一种基于 mBART-50 变压器模型的多语言文本到 SQL 框架,通过在英语和葡萄牙语数据集上联合微调,实现葡萄牙语自然语言到 SQL 的准确翻译。关键贡献在于证明:在两种语言上联合微调可显著提升性能——达到仅使用英语的基线模型的 83%,凸显了在非英语 NL2SQL 任务中采用多语言方法的必要性。
The translation of natural language questions to SQL queries has attracted growing attention, in particular in connection with transformers and similar language models. A large number of techniques are geared towards the English language; in this work, we thus investigated translation to SQL when input questions are given in the Portuguese language. To do so, we properly adapted state-of-the-art tools and resources. We changed the RAT-SQL+GAP system by relying on a multilingual BART model (we report tests with other language models), and we produced a translated version of the Spider dataset. Our experiments expose interesting phenomena that arise when non-English languages are targeted; in particular, it is better to train with original and translated training datasets together, even if a single target language is desired. This multilingual BART model fine-tuned with a double-size training dataset (English and Portuguese) achieved 83% of the baseline, making inferences for the Portuguese test dataset. This investigation can help other researchers to produce results in Machine Learning in a language different from English. Our multilingual ready version of RAT-SQL+GAP and the data are available, open-sourced as mRAT-SQL+GAP at: https://github.com/C4AI/gap-text2sql
研究动机与目标
- 开发一个稳健的文本到 SQL 系统,能够将葡萄牙语的自然语言问题准确转化为正确的 SQL 查询。
- 探究多语言预训练在非英语 NL2SQL 任务中的有效性,特别是针对葡萄牙语。
- 评估在英语和葡萄牙语数据上联合训练是否优于仅使用葡萄牙语数据进行微调。
- 为未来在低资源 NL2SQL 环境下的研究,发布一个公开可用的、支持多语言的 RAT-SQL+GAP 版本。
- 为葡萄牙语 NL2SQL 的基准测试,提供 Spider 数据集的葡萄牙语翻译版本。
提出的方法
- 通过将基模型替换为 mBART-50(一种多语言 BART 变体),对 RAT-SQL+GAP 框架进行适配,以支持葡萄牙语输入。
- 使用 Google Cloud Translation API 将 Spider 数据集中自然语言问题翻译成葡萄牙语,同时保留原始的 SQL 查询。
- 在英语和葡萄牙语问题的联合训练数据集上对 mBART-50 模型进行微调,共享 SQL 目标。
- 使用 Spider 的 Exact Set Match without Values 指标,在英语和葡萄牙语测试集上评估性能。
- 实施一种混合推理策略,在预测过程中保留命名实体(如电视剧名称)的原始形式。
- 将多语言模型、翻译后的数据集以及训练好的检查点作为开源项目发布,项目名为 mRAT-SQL+GAP。
实验结果
研究问题
- RQ1像 mBART-50 这样的多语言变压器模型能否有效处理葡萄牙语的文本到 SQL 翻译任务,尤其是在 NL2SQL 中属于低资源语言的葡萄牙语?
- RQ2与仅在葡萄牙语数据上训练相比,在英语和葡萄牙语数据上联合微调是否能提升葡萄牙语测试集上的性能?
- RQ3语言特定的关键词以及混合语言实体(如葡萄牙语问题中的英文电视剧名称)如何影响模型的泛化能力和准确性?
- RQ4当在单一目标语言(如葡萄牙语)上进行推理时,多语言模型在性能上会因训练于多种语言而下降到何种程度?
- RQ5多语言方法在多大程度上可以缓解 NL2SQL 中低资源语言翻译的挑战,特别是在词汇和句法差异存在的情况下?
主要发现
- 在英语和葡萄牙语联合训练数据集上微调 mBART-50,在葡萄牙语测试集上达到了英语仅用基线模型性能的 83%(0.595 vs. 0.718)。
- 性能最佳的模型(在两种语言上微调的 mBART-50)在英语测试集上达到 0.664,为英语仅用基线模型(0.718)的 92%。
- 仅在葡萄牙语数据上训练的模型性能较低(0.588),相比联合训练表现更差,表明单语微调并非最优方案。
- 该模型成功在翻译后的问题中保留了英文专有名词(如电视剧名称),尽管存在语言混合,仍有助于生成正确查询。
- 尽管存在词汇和句法差异,该多语言模型仍具备足够的泛化能力,能够为复杂的嵌套查询生成语义正确的葡萄牙语 SQL 查询。
- 对手动分析失败预测结果发现,错误并非随机分布,表明模型即使在出错时也学习到了有意义的模式,提示存在针对性改进的空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。