Skip to main content
QUICK REVIEW

[论文解读] Streaming Normalization: Towards Simpler and More Biologically-plausible Normalizations for Online and Recurrent Learning

Qianli Liao, Kenji Kawaguchi|arXiv (Cornell University)|Oct 19, 2016
Neural Networks and Applications参考文献 13被引用 23
一句话总结

本文提出流式归一化(Streaming Normalization),一种生物上合理且可实现的归一化技术,可在所有训练样本和时间步长上持续估计激活统计量,从而在在线学习、循环神经网络及混合学习场景中实现高效应用。该方法在多种架构与任务中均优于批量归一化(Batch Normalization)、层归一化(Layer Normalization)以及时间特定的批量归一化,其中L1归一化在性能上与之相当,且计算效率更高,生物合理性更强。

ABSTRACT

We systematically explored a spectrum of normalization algorithms related to Batch Normalization (BN) and propose a generalized formulation that simultaneously solves two major limitations of BN: (1) online learning and (2) recurrent learning. Our proposal is simpler and more biologically-plausible. Unlike previous approaches, our technique can be applied out of the box to all learning scenarios (e.g., online learning, batch learning, fully-connected, convolutional, feedforward, recurrent and mixed --- recurrent and convolutional) and compare favorably with existing approaches. We also propose Lp Normalization for normalizing by different orders of statistical moments. In particular, L1 normalization is well-performing, simple to implement, fast to compute, more biologically-plausible and thus ideal for GPU or hardware implementations.

研究动机与目标

  • 解决批量归一化在在线学习与循环学习设置中的局限性。
  • 开发一种统一的归一化框架,适用于前馈网络、卷积网络、全连接网络、循环网络及混合网络。
  • 通过实现每个神经元局部在线统计量追踪,提升方法的生物合理性。
  • 探索Lp归一化作为L2归一化的简化、快速且更具生物合理性的替代方案。
  • 证明在多样化学习场景中,流式统计量可优于时间特定或批量基础的归一化方法。

提出的方法

  • 提出流式归一化作为批量归一化与层归一化的泛化形式,利用对所有已见样本的在线、滚动激活统计量(均值与方差)估计。
  • 引入Lp归一化,即通过p阶绝对矩的p次方根对激活值进行归一化,其中L1归一化尤为简洁高效。
  • 采用解耦式累积与更新机制(DAU),在多个小批量上累积梯度后再执行权重更新,从而提升训练稳定性。
  • 在所有层与网络类型(包括循环网络与卷积网络)中统一应用相同的归一化过程,无需针对任务进行特定调整。
  • 采用归一化的广义公式,将批量归一化、层归一化与流式归一化统一于基于样本与批量统计量的单一框架下。
  • 使用带有自适应系数(如 α₁=β₁=0.7)的移动平均法,在训练过程中实时更新归一化统计量。

实验结果

研究问题

  • RQ1是否存在一种单一归一化技术,可在无需架构或任务特定调整的前提下,有效支持在线学习、循环学习与批量学习?
  • RQ2在循环语言建模任务中,流式归一化与时间特定的批量归一化及层归一化相比表现如何?
  • RQ3L1归一化是否能在性能上接近L2归一化的同时,实现更简化且更具生物合理性的实现?
  • RQ4在循环网络中,若对所有时间步保持单一组归一化统计量,是否能优于时间特定的统计量,从而提升泛化性能?
  • RQ5流式归一化在多大程度上缓解了循环网络中的内部协变量偏移问题?

主要发现

  • 在莎士比亚作品的字符级语言建模任务中,流式归一化收敛速度更快,且验证损失低于层归一化与时间特定的批量归一化。
  • 在所有测试场景中,L1归一化性能几乎与L2归一化相当,为硬件与生物实现提供了更简洁高效的替代方案。
  • 流式归一化在前馈与循环设置中均达到最先进性能,包括包含卷积与循环组件的混合架构。
  • 该方法对小批量尺寸具有鲁棒性,支持纯在线学习,而批量归一化与时间特定的批量归一化则不具备此能力。
  • 神经元级流式归一化(即每个神经元独立维护统计量)表现具有竞争力,并支持一种更具生物合理性的突触可塑性机制。
  • 结果表明,当使用流式统计量对激活值进行时间维度上的归一化时,内部协变量偏移的影响可能远低于以往认为的程度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。