QUICK REVIEW

[论文解读] Uncertainty-guided Continual Learning with Bayesian Neural Networks

Sayna Ebrahimi, Mohamed Elhoseiny|arXiv (Cornell University)|Jun 6, 2019

Domain Adaptation and Few-Shot Learning参考文献 45被引用 26

一句话总结

本文提出不确定性引导的持续贝叶斯神经网络（UCB），通过基于权重不确定性的自适应学习率调整机制，缓解持续学习中的灾难性遗忘问题。利用贝叶斯神经网络估计参数不确定性，UCB动态识别需保留的关键权重，在无需测试时提供任务标签的情况下，于多种基准上实现最先进或具有竞争力的性能。

ABSTRACT

Continual learning aims to learn new tasks without forgetting previously learned ones. This is especially challenging when one cannot access data from previous tasks and when the model has a fixed capacity. Current regularization-based continual learning algorithms need an external representation and extra computation to measure the parameters' extit{importance}. In contrast, we propose Uncertainty-guided Continual Bayesian Neural Networks (UCB), where the learning rate adapts according to the uncertainty defined in the probability distribution of the weights in networks. Uncertainty is a natural way to identify extit{what to remember} and extit{what to change} as we continually learn, and thus mitigate catastrophic forgetting. We also show a variant of our model, which uses uncertainty for weight pruning and retains task performance after pruning by saving binary masks per tasks. We evaluate our UCB approach extensively on diverse object classification datasets with short and long sequences of tasks and report superior or on-par performance compared to existing approaches. Additionally, we show that our model does not necessarily need task information at test time, i.e. it does not presume knowledge of which task a sample belongs to.

研究动机与目标

解决持续学习中的灾难性遗忘问题，即模型无法访问先前任务的数据且参数容量固定。
克服基于正则化方法的局限性，后者需要显式、与任务相关的参数重要性度量及额外计算开销。
提出一种方法，通过贝叶斯神经网络中的固有不确定性，隐式识别重要参数。
实现在测试时无需任务信息的高效持续学习，支持现实场景中的“单头”部署。
引入一种剪枝变体（UCB-P），通过学习到的二值掩码冻结关键参数，实现永久知识保留。

提出的方法

使用带变分推断的贝叶斯神经网络，将每个权重表示为分布（均值与方差），以捕捉参数不确定性。
将每个权重的学习率与其不确定性成反比进行调整：不确定性越高，允许的更新越大；不确定性越低，更新越受限制。
利用每个任务后权重的后验分布指导后续学习，保护低不确定性参数中的知识。
提出UCB-P，一种硬阈值变体，通过每任务保存的二值掩码冻结高重要性参数，防止进一步更新。
使用单一分类头训练并评估所有任务，实现在推理时无需任务身份信息的广义准确率评估。
使用蒙特卡洛采样进行变分推断中的梯度估计，以高效近似后验分布。

实验结果

研究问题

RQ1贝叶斯神经网络权重中的不确定性能否作为持续学习中参数重要性的自然、隐式度量？
RQ2基于不确定性的学习率自适应调整是否优于显式重要性正则化方法，以缓解灾难性遗忘？
RQ3该方法能否在无测试时任务信息的情况下，泛化至长序列任务和多样化数据集？
RQ4UCB在标准准确率与广义准确率指标上，与HAT、EWC等最先进持续学习方法相比表现如何？
RQ5基于不确定性的剪枝能否在降低内存开销的同时保持性能，并实现永久知识保留？

主要发现

在2-分割MNIST上，UCB在测试时无需任务信息的情况下达到98.7%的广义准确率，优于BBB-FT（98.1%），并匹配多头模型性能。
在置换MNIST上，UCB达到92.5%的广义准确率，显著优于BBB-FT（86.1%），并超越强基线HAT。
在具有挑战性的8任务CIFAR序列中，UCB实现76.8%的广义准确率，优于BBB-FT（47.6%）和PNN，高出3.6个百分点。
UCB-P在8任务序列中达到84.0%的准确率，优于PNN 3.6个百分点，通过二值掩码实现有效知识保留。
从标准准确率到广义准确率的性能下降极小（≤4.1%），表明在单头设置下对类别混淆具有强鲁棒性。
当从多头推理切换到单头推理时，UCB仅出现0.3%的准确率下降，表明其具备出色的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。