Skip to main content
QUICK REVIEW

[论文解读] Indian Buffet Neural Networks for Continual Learning

Samuel Kessler, Vu Nguyen|arXiv (Cornell University)|Dec 4, 2019
Domain Adaptation and Few-Shot Learning参考文献 13被引用 7
一句话总结

该论文提出在贝叶斯神经网络(BNNs)的结构上使用印度餐厅过程(IBP)先验,以实现在持续学习中自动、动态地调整网络复杂度。通过使用分层IBP(H-IBP)在各层之间共享结构先验,并结合重参数化技巧对伯努利和贝塔分布进行在线变分推断,该模型能够根据任务需求动态分配资源,在减少过拟合与欠拟合的同时,实现持续学习基准上的竞争力表现。

ABSTRACT

We place an Indian Buffet process (IBP) prior over the structure of a Bayesian Neural Network (BNN), thus allowing the complexity of the BNN to increase and decrease automatically. We further extend this model such that the prior on the structure of each hidden layer is shared globally across all layers, using a Hierarchical-IBP (H-IBP). We apply this model to the problem of resource allocation in Continual Learning (CL) where new tasks occur and the network requires extra resources. Our model uses online variational inference with reparameterisation of the Bernoulli and Beta distributions, which constitute the IBP and H-IBP priors. As we automatically learn the number of weights in each layer of the BNN, overfitting and underfitting problems are largely overcome. We show empirically that our approach offers a competitive edge over existing methods in CL.

研究动机与目标

  • 为解决持续学习中固定神经网络架构的问题,即固定容量导致灾难性遗忘或效率低下。
  • 实现在无需人工架构设计的前提下,跨任务自动增长和剪枝网络参数。
  • 通过动态调整模型复杂度以匹配任务需求,改善泛化性能,减少过拟合与欠拟合。
  • 开发一种可扩展的在线推断框架,支持带有结构化贝叶斯先验的持续学习。

提出的方法

  • 在贝叶斯神经网络的权重上应用印度餐厅过程(IBP)先验,以实现网络隐藏单元的自动、数据驱动的动态增长。
  • 将IBP扩展为分层IBP(H-IBP),在所有隐藏层之间全局共享结构先验,提升参数效率与一致性。
  • 采用在线变分推断并结合重参数化技术,高效近似IBP与H-IBP先验的后验分布。
  • 利用重参数化梯度对伯努利与贝塔分布进行端到端训练,实现可微分的推断过程。
  • 通过学习每层在每项任务中的活跃权重数量,实现动态资源分配,以适应数据的复杂度。

实验结果

研究问题

  • RQ1IBP先验是否能够在无需预设架构的情况下,实现持续学习中网络容量的自动、数据驱动增长?
  • RQ2在各层之间共享分层结构先验,对持续学习中的模型性能与参数效率有何影响?
  • RQ3结合重参数化IBP先验的在线变分推断,在多大程度上能减少持续学习场景中的过拟合与欠拟合?
  • RQ4与现有持续学习基线方法相比,该方法在准确率与适应能力方面表现如何?

主要发现

  • 模型能够自动学习每层的活跃权重数量,消除了对手动架构设计或宽度超参数调优的需求。
  • H-IBP的使用实现了层间一致且高效的结构先验,提升了泛化性能并减少了冗余。
  • 结合重参数化IBP与H-IBP先验的在线变分推断,实现了可扩展的、实时的持续学习适应能力。
  • 实验结果表明,该方法在性能上与现有持续学习方法相当,且显著减少了过拟合与欠拟合现象。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。