QUICK REVIEW

[论文解读] Efficient Lifelong Learning with A-GEM

Arslan Chaudhry, Marc’Aurelio Ranzato|arXiv (Cornell University)|Dec 2, 2018

Advanced Data Compression Techniques被引用 576

一句话总结

A-GEM 是一种高效的终身学习方法，通过引入平均梯度约束来扩展 GEM，在达到接近 GEM 的性能的同时显著降低计算和内存成本，在单遍流式协议下进行评估，并通过任务描述符得到增强。

ABSTRACT

In lifelong learning, the learner is presented with a sequence of tasks, incrementally building a data-driven prior which may be leveraged to speed up learning of a new task. In this work, we investigate the efficiency of current lifelong approaches, in terms of sample complexity, computational and memory cost. Towards this end, we first introduce a new and a more realistic evaluation protocol, whereby learners observe each example only once and hyper-parameter selection is done on a small and disjoint set of tasks, which is not used for the actual learning experience and evaluation. Second, we introduce a new metric measuring how quickly a learner acquires a new skill. Third, we propose an improved version of GEM (Lopez-Paz & Ranzato, 2017), dubbed Averaged GEM (A-GEM), which enjoys the same or even better performance as GEM, while being almost as computationally and memory efficient as EWC (Kirkpatrick et al., 2016) and other regularization-based methods. Finally, we show that all algorithms including A-GEM can learn even more quickly if they are provided with task descriptors specifying the classification tasks under consideration. Our experiments on several standard lifelong learning benchmarks demonstrate that A-GEM has the best trade-off between accuracy and efficiency.

研究动机与目标

在数据以流式方式到达且超参数在不大量回访过去数据的前提下进行调优的现实化终身学习设定上提供动机。
提出一个比 GEM 更高效的替代方案，称为 Averaged GEM (A-GEM)，以在保持性能的同时减少计算和内存开销。
引入一个新的学习协议和学习速度度量（学习曲线面积，LCA）来评估模型获取新任务的速度。
研究组成性任务描述符在提升前向迁移和终身学习中的小样本学习方面的应用。
在标准终身学习基准上实证比较 A-GEM 与基线方法，并分析任务描述符的影响。

提出的方法

提出一个新的单遍学习协议，包含用于超参数选择的互不重叠的 CV 任务集和用于最终评估的 EV 任务集。
通过用单一的平均内存梯度约束替代多个逐任务约束来使 GEM 适应，形成 A-GEM。
推导一个闭式梯度投影规则：如果当前梯度 g 违反参考方向 g_ref，则投影为 ˜g = g - (g^T g_ref / g_ref^T g_ref) g_ref。
引入一个联合嵌入模型，使用组成性任务描述符来学习任务嵌入并实现跨任务的前向迁移。
为联合嵌入提供交叉熵损失：l_k(θ, ω) = (1/N) Σ_i -log p(y_i^k | x_i^k, t^k; θ, ω) 其中 p(c|x_i^k, t^k; θ, ω) 由嵌入特征和任务描述符定义。
解释计算收益：A-GEM 通过使用单一梯度约束和从情节记忆中计算的参考梯度，避免像 GEM 那样存储和求解大型二次规划（QP）。

实验结果

研究问题

RQ1在单遍终身学习设置中，A-GEM 是否能够在显著降低时间和内存开销的情况下达到与 GEM 相当的准确性？
RQ2使用组成性任务描述符如何影响终身学习中的前向迁移和小样本学习性能？
RQ3引入新的基于速度的度量（学习曲线面积，LCA）是否能对跨任务的快速技能获得提供有意义的衡量？
RQ4不同评估协议如何影响观察到的终身学习方法的效率和有效性？

主要发现

A-GEM 在多个基准上在平均准确性与效率之间提供了最佳权衡，显著比 GEM 快速且更节省内存，同时达到甚至超过性能。
与正则化基方法相比，在单遍设置中，A-GEM 获得更高的平均准确性。
带有组成性任务描述符的联合嵌入模型提升了前向迁移并加速了 A-GEM 及其他基线在跨任务上的学习。
任务描述符带来改进的零-shot 和小样本性能，联合嵌入在时间上的零-shot 学习持续提升。
渐进式网络和 GEM 在某些数据集上表现出有竞争力的准确性，但渐进式网络的内存消耗要高得多，并且在更大规模的任务流上可能失败。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。