[论文解读] Systematic Generalization: What Is Required and Can It Be Learned?
本文通过一个合成数据集(SQOOP)研究了视觉问答中系统性泛化的问题,该数据集测试模型在仅训练于部分对象对的情况下,对所有可能对象对的推理能力。研究发现,采用手工设计的树状结构布局的模块化神经网络(NMNs)在系统性泛化方面显著优于通用模型或端到端NMNs,后者常学习到非组合性、次优的布局,从而损害泛化能力——这凸显了实现稳健系统性推理需要显式的归纳偏置或正则化方法。
Numerous models for grounded language understanding have been recently proposed, including (i) generic models that can be easily adapted to any given task and (ii) intuitively appealing modular models that require background knowledge to be instantiated. We compare both types of models in how much they lend themselves to a particular form of systematic generalization. Using a synthetic VQA test, we evaluate which models are capable of reasoning about all possible object pairs after training on only a small subset of them. Our findings show that the generalization of modular models is much more systematic and that it is highly sensitive to the module layout, i.e. to how exactly the modules are connected. We furthermore investigate if modular models that generalize well could be made more end-to-end by learning their layout and parametrization. We find that end-to-end methods from prior work often learn inappropriate layouts or parametrizations that do not facilitate systematic generalization. Our results suggest that, in addition to modularity, systematic generalization in language understanding may require explicit regularizers or priors.
研究动机与目标
- 评估模块化神经网络架构(NMNs)在视觉问答中是否比通用神经模型支持更强的系统性泛化能力。
- 研究模块布局与参数化方式对系统性泛化性能的影响。
- 评估在NMNs中端到端学习布局与参数化是否能保持或提升系统性泛化能力。
- 识别现有NMNs端到端方法是否收敛到组合性、系统性的解,还是次优的非组合性解。
- 确定是否需要显式正则化或先验知识,以引导神经模型向系统性、组合性推理方向发展。
提出的方法
- 作者引入SQOOP,一个合成的VQA数据集,其中模型需回答关于图像中随机配对对象的空间关系问题(例如:'字母A是否位于数字5的左侧?')。
- 模型在少量对象对上进行训练,但评估时覆盖所有可能的对象对,以测试系统性泛化能力。
- 本研究将通用模型(如FiLM、MAC、RelNet)与采用手工设计模块和固定布局的模块化NMNs进行比较。
- 评估NMNs的端到端变体,包括通过学习解析器实现的布局归纳,以及通过问题上的软注意力机制学习参数化的方法。
- 分析不同布局结构(如树状与链状)及不同训练信号强度下的模型性能。
- 在多个SQOOP划分上进行实验,逐步增加对象对的多样性(如#rhs/lhs=1至#rhs/lhs=18),测量对未见对象对的零样本泛化性能。
实验结果
研究问题
- RQ1模块化神经网络架构(NMNs)是否能在视觉问答中实现比通用神经模型更强的系统性泛化?
- RQ2模块的结构布局(如树状与链状)如何影响系统性泛化性能?
- RQ3从数据中端到端学习模块布局或参数化的模型是否能保持系统性泛化,还是会收敛到非组合性解?
- RQ4端到端NMNs的性能是否对初始化敏感,尤其是在存在大量未见对象对的高复杂度设置下?
- RQ5归纳偏置或显式正则化在神经模型中促进系统性泛化方面起到什么作用?
主要发现
- 采用手工设计的树状结构布局的模块化NMNs在未见对象对上的泛化能力显著优于FiLM、MAC和RelNet等通用模型。
- NMNs的性能对布局高度敏感:树状结构布局的泛化能力远强于链状结构布局,尤其在最困难的划分(#rhs/lhs=18)上表现显著。
- 端到端NMNs在学习布局或参数化时,常无法收敛到类似树状的组合性结构,反而学习到非组合性的链状结构或模糊注意力机制。
- 即使在强监督下,布局归纳方法仍对初始化高度敏感,且常无法学习到系统性解,表明需要显式归纳偏置。
- 参数化归纳在较简单划分(#rhs/lhs=2)上表现有前景,表明更强的训练信号或先验知识可能足以引导端到端NMNs实现系统性行为。
- 结果挑战了端到端学习本身足以实现系统性泛化的假设,暗示必须引入显式正则化或架构先验,才能实现稳健的组合性推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。