[论文解读] Progressive Neural Networks
渐进式神经网络为每个任务增加新列,并与先前学习的特征建立横向连接,从而在 Atari、Pong 变体和 3D 迷宫任务中的深度强化学习中实现迁移,同时避免灾难性忘记。
Learning to solve complex sequences of tasks--while both leveraging transfer and avoiding catastrophic forgetting--remains a key obstacle to achieving human-level intelligence. The progressive networks approach represents a step forward in this direction: they are immune to forgetting and can leverage prior knowledge via lateral connections to previously learned features. We evaluate this architecture extensively on a wide variety of reinforcement learning tasks (Atari and 3D maze games), and show that it outperforms common baselines based on pretraining and finetuning. Using a novel sensitivity measure, we demonstrate that transfer occurs at both low-level sensory and high-level control layers of the learned policy.
研究动机与目标
- 通过一个新的任务特定列结构来防止灾难性遗忘,从而推进持续学习。
- 通过学习到的横向连接实现跨序列RL任务的迁移。
- 在不同的 RL 领域(Pong 变体、Atari、迷宫)中对比微调基线来评估迁移性能的经验效果。
- 开发分析性度量,理解跨任务层次(基于 Fisher 信息)迁移发生的区域与方式。
提出的方法
- 为每个任务实例化一个新的网络列,并冻结先前的列以避免遗忘。
- 使用横向适配器将先前任务的特征连接到新列的各层。
- 在多个 RL 领域使用异步 A3C 进行训练以评估迁移。
- 与基线进行比较:单任务微调(仅顶层与全模型)以及两列渐进网络。
- 使用平均 Fisher 敏感性(AFS)和基于扰动的分析来分析迁移。
- 解决扩展性问题并讨论新增容量的潜在剪枝/压缩。
实验结果
研究问题
- RQ1渐进式网络是否能够在不忘记先前任务的前提下,在异质 RL 任务之间实现正向迁移?
- RQ2在序列 RL 任务中,迁移如何在低层(视觉)和高层(策略)层之间表现?
- RQ3随着增加更多任务列,容量使用是否呈现递减趋势,暗示可行的剪枝或压缩?
- RQ4在 Pong 变体、Atari 和 Labyrinth 等 RL 领域中,渐进式迁移与标准微调基线相比如何?
- RQ5哪些度量(如基于 Fisher 的敏感性)能揭示网络中迁移发生的位置?
主要发现
- 渐进式网络在跨 RL 任务的迁移学习中常常优于强基线微调。
- 迁移可以在低级传感层和高级控制层上发生,这通过对特征重用和 AFS 分数的分析得到证据。
- 在若干领域中,增加列数会带来正向迁移的提升,尽管在某些情况下若先前特征占优而未学习新特征时会出现负向迁移。
- 随着添加的列增多,实际使用的新增容量比例呈下降趋势,这提示剪枝或压缩可以缓解增长。
- 该框架甚至在正交或对抗性任务对之间也显示出迁移,例如在 Atari 的 Seaquest 到 Gopher,凸显了鲁棒的知识复用。
- 强制适应(冻结先前的列)防止忘记并使在多个任务上的联合表现成为可能,而不会产生破坏性的干扰。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。