QUICK REVIEW

[论文解读] A comprehensive, application-oriented study of catastrophic forgetting in DNNs

Benedikt Pfülb, Alexander Gepperth|arXiv (Cornell University)|May 20, 2019

Domain Adaptation and Few-Shot Learning被引用 58

一句话总结

本论文在多数据集和多种 SLT 下，对神经网络序列学习中的灾难性遗忘（CF）进行了大规模的经验研究，在面向应用的约束下，评估了 EWC、IMM 等模型的有效性。研究表明 CF 在现实条件下仍然存在，并讨论了实际的变通办法。

ABSTRACT

We present a large-scale empirical study of catastrophic forgetting (CF) in modern Deep Neural Network (DNN) models that perform sequential (or: incremental) learning. A new experimental protocol is proposed that enforces typical constraints encountered in application scenarios. As the investigation is empirical, we evaluate CF behavior on the hitherto largest number of visual classification datasets, from each of which we construct a representative number of Sequential Learning Tasks (SLTs) in close alignment to previous works on CF. Our results clearly indicate that there is no model that avoids CF for all investigated datasets and SLTs under application conditions. We conclude with a discussion of potential solutions and workarounds to CF, notably for the EWC and IMM models.

研究动机与目标

动机并形式化一个面向应用的评估协议，用于 DNNs 的序列学习，该协议应反映现实世界的约束（记忆、因果性和更新复杂度）。
系统地在大规模、多样化的视觉分类数据集和序列学习任务上评估 CF，以确定在上述约束下是否存在任何当前模型能够避免 CF。
比较几种 DNN 方案（Dropout 变体、LWTA、EWC、IMM），在提出的协议下，它们在 CF 行为和实际可行性方面的差异。
突出常见 CF 基准（例如基于置换的 SLTs）的局限性，并就应用条件下的解释和模型选择提供指导。

提出的方法

在一致的协议约束下，从多个视觉数据集构建、每个数据集包含两个子任务的序列学习任务 (SLTs) 的定义。
使用基于 TensorFlow 的框架实现并评估多种 DNN 架构：FC、CONV、D-FC、D-CONV，配合 Dropout、LWTA、EWC 和 IMM。
对每个模型在第一个子任务 D1 上进行组合式超参数搜索以选取候选模型，然后在 D2 上以不同学习率重新训练以评估 CF。
将增量学习质量 q 量化为在应用导向标准下对并集任务 D1∪D2 的最佳/最终性能，并与在 D1∪D2 上不带 CF 的基线进行比较。
对于 IMM，采用权重迁移/合并方案，并分析对平衡参数 α 的敏感性，同时考虑实际可行性。

实验结果

研究问题

RQ1在面向应用的约束下，CF 是否在广泛的数据集和 SLTs 上持续存在？
RQ2在现实资源和因果性约束下，哪些 DNN 方法（Dropout 变体、EWC、IMM、LWTA）对 CF 的缓解最有效？
RQ3尊重应用约束的评估标准（最佳 vs. 最后）如何影响对 CF 与模型有效性的结论？
RQ4基于置换的 SLTs 在应用场景下是否是可靠的 CF 评估基准？
RQ5哪些实际的变通方法可以使像 EWC 或 IMM 这样的方法在现实世界的序列学习中可行？

主要发现

在所研究的数据集和 SLTs 上，所有测试的模型在所提出的面向应用的协议下都表现出灾难性遗忘。
EWC 对简单的 SLTs 提供轻微的 CF 保护，但对于具有可比子任务规模的更复杂 SLTs（例如 D5-5 类型任务）则无效。
IMM 通常在模型中获得最佳的增量学习性能，但受到高计算成本和与应用约束冲突的参数调优的阻碍；在实际中通常不可行。
基于置换的 SLTs（DP10-10）对任何模型都不表现出 CF，提示应谨慎将此类 SLTs 作为 CF 基准。
在应用情景下对 SLTs 的训练中，模型选择（超参数调优）必须是必不可少的，因为在 D1 上的错误选择可能会严重降低后续任务的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。