[论文解读] Automatically Composing Representation Transformations as a Means for Generalization
本文提出了组合递归学习者(CRL),一种通用领域框架,通过类比先前子问题的推理方式,自动组合可重用的表征变换来解决复杂问题。CRL 在训练中未见过的更长、更复杂的问题上实现了强大的零样本泛化能力,在符号算术和视觉任务中优于非组合基线模型,其通过稀疏监督和课程学习实现了模块化、分层的计算学习。
A generally intelligent learner should generalize to more complex tasks than it has previously encountered, but the two common paradigms in machine learning -- either training a separate learner per task or training a single learner for all tasks -- both have difficulty with such generalization because they do not leverage the compositional structure of the task distribution. This paper introduces the compositional problem graph as a broadly applicable formalism to relate tasks of different complexity in terms of problems with shared subproblems. We propose the compositional generalization problem for measuring how readily old knowledge can be reused and hence built upon. As a first step for tackling compositional generalization, we introduce the compositional recursive learner, a domain-general framework for learning algorithmic procedures for composing representation transformations, producing a learner that reasons about what computation to execute by making analogies to previously seen problems. We show on a symbolic and a high-dimensional domain that our compositional approach can generalize to more complex problems than the learner has previously encountered, whereas baselines that are not explicitly compositional do not.
研究动机与目标
- 为解决在先前未见的更复杂任务上泛化的问题,特别是当先前解决方案无法直接适用时。
- 通过组合问题图的形式化任务间组合结构,实现子解决方案的重用。
- 开发一种通用领域的学习框架,自动发现并组合可重用的变换模块。
- 通过类比推理,在先前学习的变换上实现元推理,以解决新颖且更复杂的问题。
- 使用组合泛化作为基准,评估模型在训练分布之外的泛化能力。
提出的方法
- CRL 将问题求解建模为对表征变换的算法程序学习,其中每个变换都是一个模块化的计算单元。
- 该框架使用控制器在元级马尔可夫决策过程(MDP)中按顺序应用模块,决定每一步应应用哪种变换。
- 模块通过稀疏监督和局部任务视图进行训练,以鼓励任务无关的、可重用的功能。
- 课程训练方案使模型逐步接触更复杂的问题,促进对已知子解决方案的重用。
- 控制器使用深度强化学习学习最优组合策略,支持递归和类似循环的行为。
- 表征变换通过端到端方式学习,系统通过迭代应用模块将输入重新表征为更熟悉的形式。
实验结果
研究问题
- RQ1学习者是否能通过组合先前学习的子解决方案,泛化到训练期间未见过的更复杂问题?
- RQ2问题分布中的组合结构如何相比单体或任务特定模型,实现更好的泛化?
- RQ3模型在缺乏组合顺序显式监督的情况下,能在多大程度上学会类比推理并组合变换?
- RQ4元推理控制器是否能通过自监督学习将新颖问题分解为已知子问题?
- RQ5该方法在分布偏移以及显著更长或更复杂问题的外推方面有多强的鲁棒性?
主要发现
- 在多语言算术问题上,CRL 在仅用 2–5 项问题进行训练后,对 100 项问题达到了 60% 的准确率,远超随机猜测的 10% 基线。
- 在 MNIST 空间变换任务中,CRL 泛化到了训练中未见的更复杂空间扰动,展示了对分布偏移的鲁棒性。
- 执行轨迹显示,CRL 学会以新颖方式组合语言翻译和算术求解模块,例如将简化答案翻译为目标语言。
- 该模型成功以灵活方式应用运算顺序规则,有时偏离严格顺序,但仍得出正确结果。
- CRL 展现出强大的外推能力,在将 10 项扩展到 20 项算术表达式时,准确率保持在约 80%。
- 该框架对模块数量的变化具有鲁棒性,在不同架构配置下均表现出稳定性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。