QUICK REVIEW

[论文解读] Progress & Compress: A scalable framework for continual learning

Jonathan Schwarz, Jelena Luketina|arXiv (Cornell University)|May 16, 2018

Machine Learning and Algorithms被引用 292

一句话总结

本文提出Progress & Compress（P&C）框架，一种可扩展的持续学习方法，通过交替进行‘进展’阶段（利用可训练的活跃模块学习新任务）与‘压缩’阶段（将活跃模块的知识蒸馏到固定的知识库中，同时通过改进的弹性权重整合（EWC）保护先前学习的技能）实现。该方法在顺序Omniglot分类和强化学习任务（Atari、3D迷宫）上实现了最先进性能，且参数数量保持恒定，无需任务特定参数或数据回放。

ABSTRACT

We introduce a conceptually simple and scalable framework for continual learning domains where tasks are learned sequentially. Our method is constant in the number of parameters and is designed to preserve performance on previously encountered tasks while accelerating learning progress on subsequent problems. This is achieved by training a network with two components: A knowledge base, capable of solving previously encountered problems, which is connected to an active column that is employed to efficiently learn the current task. After learning a new task, the active column is distilled into the knowledge base, taking care to protect any previously acquired skills. This cycle of active learning (progression) followed by consolidation (compression) requires no architecture growth, no access to or storing of previous data or tasks, and no task-specific parameters. We demonstrate the progress & compress approach on sequential classification of handwritten alphabets as well as two reinforcement learning domains: Atari games and 3D maze navigation.

研究动机与目标

解决持续学习中灾难性遗忘问题，且无需访问或存储先前数据。
通过重用先前学习任务的特征，实现正向迁移。
设计一种可扩展的方法，无论任务数量多少，均保持恒定的参数数量。
将现有方法（如EWC和知识蒸馏）的优势统一到一个单一、模块化的框架中。
在监督学习（Omniglot）和强化学习（Atari、3D迷宫）领域均证明其有效性。

提出的方法

该框架使用两个固定大小的组件：用于存储先前学习技能的知识库（KB）和用于学习新任务的活跃模块。
在‘进展’阶段，通过层间横向连接将活跃模块与KB连接，实现特征重用和正向迁移。
在‘压缩’阶段，使用教师（活跃模块）与学生（KB）输出之间的交叉熵损失，将活跃模块的知识蒸馏到KB中。
在蒸馏过程中对KB应用弹性权重整合（EWC），以保护先前学习的参数免受灾难性遗忘影响。
该方法在进展与压缩阶段之间交替进行，每个新任务均对活跃模块进行重新初始化。
该方法对任务边界不敏感，无需任务标签或数据回放。

实验结果

研究问题

RQ1能否在不存储过去数据的情况下，实现强正向迁移并最小化灾难性遗忘？
RQ2活跃学习与知识整合之间的交替如何影响多任务环境下的性能？
RQ3固定大小的架构能否有效扩展到大量顺序任务？
RQ4知识蒸馏与EWC的结合相较于单独使用EWC或LwF，在持续学习设置中表现如何？
RQ5所提出方法是否能在不同学习范式（包括监督学习和强化学习）中实现泛化？

主要发现

在经历五轮回顾后，P&C在50个Omniglot字母上的平均测试准确率达到82.84% ± 1.4，优于所有基线方法，包括在线EWC和Progressive Nets。
在Atari游戏中，P&C在多个游戏中表现出显著性能提升（如Space Invaders、Krull、BeamRider），同时在其他游戏中也保持了具有竞争力的表现。
该方法保持了恒定的参数数量（659K），并在Omniglot和Atari基准测试中均优于在线EWC（446K参数）和LwF（217K参数）。
实证结果表明，在蒸馏过程中允许适度遗忘（通过γ = 0.99）可提升整体性能，表明稳定性与可塑性之间存在权衡。
该框架在多样化领域中表现出有效的正向迁移，由于KB中知识的重用，后期任务性能获得提升。
该方法在无需任务标签或数据回放的情况下取得优异结果，证实其在任务边界模糊的真实持续学习场景中的适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。