Skip to main content
QUICK REVIEW

[论文解读] Coresets via Bilevel Optimization for Continual Learning and Streaming

Zalán Borsos, Mojmír Mutný|arXiv (Cornell University)|Jun 6, 2020
Domain Adaptation and Few-Shot Learning参考文献 61被引用 78
一句话总结

论文提出了一个双层优化框架,用于构建小型带标签数据的核心集,从而实现持续学习和流式场景中的有效神经网络训练,采用一个贪心 matching-pursuit 方法,并通过一个代理的 RKHS/NTK 形式以提升对深度模型的可扩展性。

ABSTRACT

Coresets are small data summaries that are sufficient for model training. They can be maintained online, enabling efficient handling of large data streams under resource constraints. However, existing constructions are limited to simple models such as k-means and logistic regression. In this work, we propose a novel coreset construction via cardinality-constrained bilevel optimization. We show how our framework can efficiently generate coresets for deep neural networks, and demonstrate its empirical benefits in continual learning and in streaming settings.

研究动机与目标

  • 在持续学习和流式场景中,为在在线数据到达和内存约束条件下维持模型的准确性而使用 coresets 的动机。
  • 提出一个基于基数约束双层优化的通用核心集构建框架。
  • 通过代理模型和 RKHS/NTK 形式,使深度神经网络的高效核心集生成成为可能。
  • 在基于回放记忆的持续学习和流场景中,展示所提核心集的经验收益。

提出的方法

  • 将核心集选择表述为一个基数约束的双层优化问题,其中内层问题最小化带正则化项的损失,外层问题在内层解上最小化损失。
  • 通过贪心前向(matching-pursuit)方法求解双层问题,该方法迭代添加使外部目标函数下降最多的数据点,使用局部内解和隐式梯度计算。
  • 在再现核希尔伯特空间中使用代理模型以避免训练神经网络时反转大型 Hessian 矩阵,从而实现可扩展的外层优化。
  • 采用基于表示定理的约简,使内层问题仅依赖至多 m 个数据点(即核心集大小)。
  • 将该方法与影响函数和实验设计相联系,为选择准则提供直觉,并在凸情形下给出收敛性解释。

实验结果

研究问题

  • RQ1一个基于双层优化的表述是否能够为训练复杂模型如神经网络提供有效、且规模较小的核心集?
  • RQ2如何在在线环境中高效地选择一小部分数据,以支持持续学习和流式场景,而不发生灾难性遗忘?
  • RQ3在该设定下,贪心匹配-追踪风格的核心集选择的理论与经验性质(收敛性、性能)是什么?
  • RQ4代理的 RKHS/NTK 形式如何影响深度网络的核心集构建的实用性和性能?

主要发现

  • 所提出的框架能够产生具有代表性的核心集,在基于回放记忆的持续学习和流式场景中,相对于若干基线方法提升了性能。
  • 带有局部内解和隐式梯度的贪心匹配-追踪方法为基数约束的双层问题提供了一个可行解。
  • 使用 RKHS/NTK 的代理形式使神经网络的核心集生成更加可扩展,显著加速了外层计算(例如使用 NTK 代理)。
  • 该方法在持续学习基准(PermMNIST、SplitMNIST、SplitCIFAR-10)和流式场景(包括不平衡流)中表现出具竞争力或优越的性能。
  • 该方法与贝叶斯实验设计和经验影响函数建立联系,为核心集选择策略提供理论基础。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。