Skip to main content
QUICK REVIEW

[论文解读] Unlocking Compositional Generalization in Pre-trained Models Using Intermediate Representations

Jonathan Herzig, Peter Shaw|arXiv (Cornell University)|Apr 15, 2021
Natural Language Processing Techniques参考文献 46被引用 51
一句话总结

这篇论文显示,在设计中间表示(IR)并结合预训练的序列到序列模型,能显著提升在 CFQ 和文本到 SQL 数据集上的组合泛化,达到新的最先进结果。

ABSTRACT

Sequence-to-sequence (seq2seq) models are prevalent in semantic parsing, but have been found to struggle at out-of-distribution compositional generalization. While specialized model architectures and pre-training of seq2seq models have been proposed to address this issue, the former often comes at the cost of generality and the latter only shows limited success. In this paper, we study the impact of intermediate representations on compositional generalization in pre-trained seq2seq models, without changing the model architecture at all, and identify key aspects for designing effective representations. Instead of training to directly map natural language to an executable form, we map to a reversible or lossy intermediate representation that has stronger structural correspondence with natural language. The combination of our proposed intermediate representations and pre-trained models is surprisingly effective, where the best combinations obtain a new state-of-the-art on CFQ (+14.8 accuracy points) and on the template-splits of three text-to-SQL datasets (+15.0 to +19.4 accuracy points). This work highlights that intermediate representations provide an important and potentially overlooked degree of freedom for improving the compositional generalization abilities of pre-trained seq2seq models.

研究动机与目标

  • 激发使用预训练模型改进语义解析的组合泛化能力。
  • 研究中间表示是否能够弥合自然语言与含义表示之间的结构差距。
  • 展示在不改变模型架构的情况下,利用IR实现模型无关的两阶段解码。
  • 提出与预训练协同工作的IR设计原则。
  • 量化在多种形式化语言(SPARQL、SQL、SCAN)及数据集上的增益。

提出的方法

  • 定义可逆和有损的中间表示,以提高与自然语言的结构对齐。
  • 训练 Seq2Seq_1 将 x 映射到中间表示 z,然后通过反变换(可逆 IR)或基于 x 和 z 的第二个模型来恢复 y(有损 IR)。
  • 设计IR以减少NL–形式化之间的错配、增加程序结构相似性,并在需要时通过括号实现分层作用域。
  • 在 CFQ(MCD 划分)以及带模板划分的三个文本到 SQL 数据集、以及 SCAN 划分(长度、向左转)上进行评估。
  • 对预训练的 T5 模型在 (x, z) 或 (x, [SEP], z) 对上进行微调;并与不使用 IR 的基线解码进行比较。
  • 进行消融分析,以理解 RIR 与 LIR 及其组合的贡献;并分析与预训练的相互作用。

实验结果

研究问题

  • RQ1在不改变架构的前提下,IR 是否能在预训练的序列到序列模型中提升组合泛化?
  • RQ2哪些 IR 设计(可逆 vs 有损)及具体设计选择最有效地减少 NL–程序错配并提升泛化?
  • RQ3IR 是否与预训练协同作用,超越 CFQ 和文本到 SQL 模板的先前最先进结果?
  • RQ4在独立同分布(i.i.d.)划分上,IR 是否仍能保持性能,同时提升组合泛化?
  • RQ5IR 设计如何影响模型对预训练和架构容量的依赖?

主要发现

  • IR 结合预训练在组合划分上带来显著提升:CFQ 提升 14.8 个准确性点;三个文本到 SQL 数据集的模板划分提升 15.0 到 19.4 个准确性点。
  • 可逆中间表示(RIR)显著提升组合泛化,且与有损 IR(LIR ind)结合时获得进一步提升。
  • 使用 T5-base/large/3B 时,最佳 IR 超越 CFQ 和文本到 SQL 模板划分的之前最先进结果,同时保持 i.i.d. 性能。
  • 在使用金标准 IR 的消融实验中,IR 能实现接近 Oracle 的性能,表明 IR 提供了显著的信息杠杆。
  • IR 主要在与预训练配合使用时带来收益;未进行预训练的模型在使用 IR 时仅看到适度或负面的增益。
  • CFQ:仅 RIR 即可带来显著提升;仅 LIR 稍显不一致;组合 IRs 提供最佳结果。
  • 文本到 SQL:RIR 和 LIR d +RIR 在 ATIS、GeoQuery 和 Scholar 上带来显著增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。