QUICK REVIEW

[论文解读] Rotate your Networks: Better Weight Consolidation and Less Catastrophic Forgetting

Xialei Liu, Marc Masana|arXiv (Cornell University)|Feb 8, 2018

Domain Adaptation and Few-Shot Learning参考文献 21被引用 35

一句话总结

本文提出R-EWC方法，通过旋转神经网络参数空间，使费雪信息矩阵（Fisher Information Matrix）近似对角化，从而改善弹性权重固化（Elastic Weight Consolidation, EWC）方法，减轻连续学习中的灾难性遗忘。该方法在不使用旧任务样本的情况下，显著优于标准EWC和当前最先进方法的持续学习性能。

ABSTRACT

In this paper we propose an approach to avoiding catastrophic forgetting in sequential task learning scenarios. Our technique is based on a network reparameterization that approximately diagonalizes the Fisher Information Matrix of the network parameters. This reparameterization takes the form of a factorized rotation of parameter space which, when used in conjunction with Elastic Weight Consolidation (which assumes a diagonal Fisher Information Matrix), leads to significantly better performance on lifelong learning of sequential tasks. Experimental results on the MNIST, CIFAR-100, CUB-200 and Stanford-40 datasets demonstrate that we significantly improve the results of standard elastic weight consolidation, and that we obtain competitive results when compared to other state-of-the-art in lifelong learning without forgetting.

研究动机与目标

为解决在顺序任务学习中灾难性遗忘的问题，即神经网络在学习新任务时会遗忘先前学习的任务。
克服弹性权重固化（Elastic Weight Consolidation, EWC）的局限性，该方法假设费雪信息矩阵（Fisher Information Matrix, FIM）为对角矩阵，而这一条件在实际中很少成立。
通过重新参数化网络的参数空间，利用旋转使FIM更接近对角化，从而改进EWC中的权重固化。
在不存储先前任务样本的情况下，实现更优的持续学习性能。
开发一种实用且可训练的方法，近似最优参数空间旋转，同时保持网络架构和推理性能不变。

提出的方法

该方法通过对中间特征表示应用可学习的旋转，重新参数化网络，从而间接旋转参数空间。
该旋转通过额外的固定权重卷积层和全连接层实现，不增加可训练参数的数量。
旋转使FIM的主成分与坐标轴对齐，从而提高对角近似的准确性。
该方法保持与原始网络相同的前向传播输出，确保转换不会导致性能下降。
随后在旋转后的参数空间中应用EWC，此时对角FIM假设更接近真实，从而实现更优的正则化。
旋转通过标准反向传播端到端训练，旋转层权重在收敛后固定。

实验结果

研究问题

RQ1对网络参数空间进行重参数化是否能改善EWC中费雪信息矩阵的对角近似？
RQ2旋转后的参数空间是否能带来更好的权重固化效果并减少顺序学习中的灾难性遗忘？
RQ3在不使用样本回放的情况下，R-EWC与标准EWC及其他最先进持续学习方法相比表现如何？
RQ4能否在不增加可训练参数数量的前提下高效实现该旋转？
RQ5该方法在多个顺序任务中是否保持性能，尤其是在任务数量增加时？

主要发现

R-EWC在所有评估数据集（包括MNIST、CIFAR-100、CUB-200和Stanford-40）上显著优于标准EWC，且性能差距随时间推移而扩大。
在包含四个任务的Stanford-40 Actions数据集中，R-EWC在所有先前任务上的平均准确率达到37.2%，而标准EWC仅为23.0%。
在CIFAR-100数据集上，R-EWC比EWC高出约5个百分点，且在平均准确率上超过学习无遗忘（Learning Without Forgetting, LwF）方法。
尽管未使用任何样本数据，R-EWC在性能上仍与上界（全量数据始终可用）相当。
该方法在所有先前任务中均一致减少了遗忘，尤其在后期任务中性能提升最大，而遗忘问题在这些任务中最为严重。
基于旋转的重参数化方法有效对角化了FIM，验证了EWC核心假设在更准确的参数空间中成立。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。