[论文解读] Fast Parametric Learning with Activation Memorization
本文提出 Hebbian Softmax,一种通过 Hebbian 更新规则将最近网络激活直接记忆到 Softmax 层权重中,从而加速稀有类别学习的方法。该方法在 WikiText-103 上实现了 29.2 的最先进困惑度,并在图像分类中实现了更快的新类别绑定,且无需额外计算或内存开销。
Neural networks trained with backpropagation often struggle to identify classes that have been observed a small number of times. In applications where most class labels are rare, such as language modelling, this can become a performance bottleneck. One potential remedy is to augment the network with a fast-learning non-parametric model which stores recent activations and class labels into an external memory. We explore a simplified architecture where we treat a subset of the model parameters as fast memory stores. This can help retain information over longer time intervals than a traditional memory, and does not require additional space or compute. In the case of image classification, we display faster binding of novel classes on an Omniglot image curriculum task. We also show improved performance for word-based language models on news reports (GigaWord), books (Project Gutenberg) and Wikipedia articles (WikiText-103) --- the latter achieving a state-of-the-art perplexity of 29.2.
研究动机与目标
- 解决神经网络分类器在低资源或长尾场景下对稀有类别学习缓慢的挑战。
- 克服标准反向传播的局限性,后者需要大量样本才能准确估计稀有类别的参数。
- 在不增加模型复杂度的前提下,提升稀有或新引入类别的数据效率和初始表征质量。
- 探索一种简单、可扩展的替代方案,以替代外部记忆或元学习,实现对新类别的快速适应。
- 在视觉和语言建模任务中均证明其有效性,且计算成本极低。
提出的方法
- 引入一种混合学习规则,将标准梯度下降与 Softmax 层权重的 Hebbian 更新规则相结合。
- 应用 Hebbian 更新:当观察到类别 y 且隐藏层激活为 h_t 时,θ[y] ← θ[y] + h_t,尤其针对低频类别。
- 仅在类别被观察到的次数少于阈值时使用 Hebbian 规则,之后切换为梯度下降。
- 将近期激活直接存储并累积到 Softmax 权重参数中,从而使其成为一种快速、压缩的记忆机制。
- 通过避免引入额外内存或计算,保持模型效率,因为更新已集成到现有参数中。
- 在图像分类(Omniglot)和语言建模(GigaWord、Project Gutenberg、WikiText-103)中应用该方法,仅需极少的架构修改。
实验结果
研究问题
- RQ1是否可通过将近期激活直接记忆到 Softmax 层中,提升神经网络中稀有类别的学习速度?
- RQ2在少样本学习场景下,所提出的 Hebbian Softmax 方法与标准反向传播及 RMSProp 等自适应优化器相比表现如何?
- RQ3该方法是否能提升大规模、长尾词汇表的语言建模任务性能,特别是对低频词的建模?
- RQ4该方法是否能在不增加推理或训练计算成本、且无需外部记忆组件的前提下,保持性能提升?
- RQ5与传统记忆机制相比,激活记忆在长时间间隔内对稀有类别表征的保留程度如何?
主要发现
- Hebbian Softmax 方法在 WikiText-103 语言建模基准上实现了 29.2 的最先进困惑度,优于强大的 LSTM 基线模型。
- 在 Omniglot 图像分类任务中,该模型相比使用自适应学习率的 RMSProp 展现出更快的新类别绑定能力。
- 困惑度分析显示,低频词桶的性能显著提升,证实了对稀有和未见词的更好建模。
- 该方法在多种语料上均表现提升,包括 GigaWord(新闻)、Project Gutenberg(书籍)和 WikiText-103(维基百科),表明其广泛适用性。
- 该方法在不增加内存或计算成本的前提下实现这些性能提升,因为激活记忆直接在现有的 Softmax 参数中完成。
- 由于记忆的激活不会被更频繁的类别所驱逐,模型在更长时间间隔内仍能保持对稀有类别改进的表征,这与外部记忆系统不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。