[论文解读] Rearranging the Familiar: Testing Compositional Generalization in Recurrent Networks
本文使用SCAN数据集测试循环神经网络(RNNs)在组合泛化方面的能力,重点考察其在新语境中重新组合熟悉的功能词(如'around'和'right')的能力。尽管在已见模式上表现优异,但当需要将组合规则应用于新组合时,RNNs无法系统性地泛化,而是依赖于对特定示例的大量暴露,而非学习抽象规则。
Systematic compositionality is the ability to recombine meaningful units with regular and predictable outcomes, and it's seen as key to humans' capacity for generalization in language. Recent work has studied systematic compositionality in modern seq2seq models using generalization to novel navigation instructions in a grounded environment as a probing tool, requiring models to quickly bootstrap the meaning of new words. We extend this framework here to settings where the model needs only to recombine well-trained functional words (such as "around" and "right") in novel contexts. Our findings confirm and strengthen the earlier ones: seq2seq models can be impressively good at generalizing to novel combinations of previously-seen input, but only when they receive extensive training on the specific pattern to be generalized (e.g., generalizing from many examples of "X around right" to "jump around right"), while failing when generalization requires novel application of compositional rules (e.g., inferring the meaning of "around right" from those of "right" and "around").
研究动机与目标
- 探究循环神经网络在重新组合已训练好的功能词于新语境时,是否能够系统性地泛化。
- 通过聚焦于功能词而非新动词学习,扩展先前关于序列到序列模型中组合泛化的研究。
- 评估训练数据的数量和结构在促进或阻碍系统性泛化方面的作用。
- 确定RNNs是否能仅基于已知成分推断出新组合的含义,而无需事先接触该特定组合。
提出的方法
- 本研究使用SCAN数据集,这是一个基于短语结构语法、通过模板生成指令的语言驱动导航环境。
- 实验将'around right'的泛化作为功能模板,应用于新基本动作(如'jump around right'),训练时使用其他基本动作(如'look around right')的示例。
- 三个受控实验通过改变目标模板的训练样本数量,测量在保留指令上的零样本泛化性能。
- 通过准确率评估模型将新指令映射到正确动作序列的能力,并使用自举法计算95%置信区间以估计误差。
- 模型在总共10万次训练展示上进行训练,各条件下的示例数量不同,以隔离样本复杂度的影响。
- 该框架在个体词汇含义已知的条件下测试泛化,从而将挑战集中于组合规则的应用。
实验结果
研究问题
- RQ1当RNNs在训练期间从未见过特定组合时,能否对熟悉功能词(如'jump around right')的新组合泛化其含义?
- RQ2随着对特定模板(如'Primitive around right')的暴露次数增加,模型性能是否提升,还是受限于缺乏显式示例?
- RQ3模型的泛化是基于系统性组合性,还是依赖于对特定训练示例的记忆?
- RQ4复杂模板的独立训练示例数量如何影响模型对新基本动作的泛化能力?
主要发现
- 在仅用一个'around right'模板示例进行训练后,模型对新基本动作(如'jump around right')实现了近乎完美的泛化,表明其具备一定的类比泛化能力。
- 当从未接触过特定组合时,仅基于已知成分('around'和'right')进行泛化,性能仍较低,表明系统性组合性的失败。
- 泛化准确率随目标模板训练样本数量的增加而逐步提高,峰值出现在512个样本,表明模型依赖于统计证据而非规则学习。
- 即使对单个成分有大量暴露,当目标组合未出现在训练数据中时,模型仍无法泛化,表明其缺乏组合泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。