[论文解读] Data Recombination for Neural Semantic Parsing
本文提出数据重组(data recombination)框架,通过从训练数据中提取的高精度同步上下文无关语法(SCFG)注入结构先验知识,以增强神经语义解析。该方法通过组合现有示例中的片段生成合成的、重组的训练样本,再利用这些样本训练带有复制机制的注意力序列到序列RNN模型,在GeoQuery数据集上相比基线模型实现4.3%的准确率提升,达到新的SOTA性能。
Modeling crisp logical regularities is crucial in semantic parsing, making it difficult for neural models with no task-specific prior knowledge to achieve good results. In this paper, we introduce data recombination, a novel framework for injecting such prior knowledge into a model. From the training data, we induce a high-precision synchronous context-free grammar, which captures important conditional independence properties commonly found in semantic parsing. We then train a sequence-to-sequence recurrent network (RNN) model with a novel attention-based copying mechanism on datapoints sampled from this grammar, thereby teaching the model about these structural properties. Data recombination improves the accuracy of our RNN model on three semantic parsing datasets, leading to new state-of-the-art performance on the standard GeoQuery dataset for models with comparable supervision.
研究动机与目标
- 为解决神经模型在捕捉语义解析中清晰逻辑规律方面的局限性,此类局限性会阻碍性能提升,且缺乏任务特定的归纳偏置。
- 开发一种通用框架,在不依赖手工设计特征或词典的前提下,将先验知识注入领域通用的神经模型中。
- 通过从原始数据集导出的语法生成结构有效、可重组的训练样本,增强训练数据,从而提升语义解析的泛化能力和准确率。
- 证明在更长、更复杂的重组样本上进行训练,即使测试数据较短,也能提升模型性能。
提出的方法
- 从原始训练数据中提取高精度同步上下文无关语法(SCFG),以捕捉逻辑形式中的条件独立性和组合结构。
- 利用SCFG通过重组不同原始示例中的片段,采样生成新的合成训练样本,形成“重组”数据点。
- 在原始样本和重组样本上联合训练带有注意力机制的序列到序列RNN模型,并引入复制机制,以提升泛化能力及对罕见或OOV词的处理能力。
- 采用两种抽象策略——AbsWholePhrases和AbsEntities——生成保留结构规律的同时支持可控重组的语法。
- 在所有训练周期中固定重组样本,以确保评估的一致性并避免数据泄露。
- 在三个语义解析基准数据集(GeoQuery、ATIS和Overnight)上评估该框架,使用标准划分和评估指标。
实验结果
研究问题
- RQ1能否从语义解析训练数据中有效提取高精度同步上下文无关语法,以建模结构规律?
- RQ2从此类语法生成合成的、重组的训练样本,是否能提升序列到序列RNN模型在语义解析中的性能?
- RQ3当测试样本较短时,更长、更复杂的重组样本在多大程度上能提升模型泛化能力?
- RQ4数据重组是否能在不依赖种子词典或任务特定特征的前提下实现SOTA性能?
主要发现
- 与基线RNN相比,数据重组在GeoQuery数据集上将测试准确率提升了4.3个百分点,实现了无种子词典模型的全新SOTA性能。
- 在所有三个数据集上,使用重组样本均带来了显著性能提升,尤其在训练于更长、更深的示例时提升最为明显。
- 尽管测试集仅包含短样本,但使用更长的重组样本进行训练仍优于使用短样本的训练,表明结构复杂性有助于学习。
- 该框架表明,通过数据重组将神经模型与结构化、符号化先验知识结合,可实现超越标准神经训练所能达到的性能提升。
- 所提出的注意力机制复制机制在引入重组数据后,能有效处理罕见和OOV词。
- 所生成的SCFG能产生超出原始测试分布的样本,但这些样本仍提升了泛化能力,表明结构归纳偏置有助于提升模型鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。