[论文解读] Variational Memory Addressing in Generative Models
本文提出了一种生成模型中的变分记忆寻址机制,将记忆读取操作视为对非参数化内存缓冲区的随机离散寻址,通过变分推断实现有效训练。通过将记忆地址建模为潜在变量并结合目标引导注意力,该方法在大型内存库中仍能实现鲁棒的 few-shot 生成与推理,优于软注意力基线,在 Omniglot 数据集上表现更优,并且无需温度退火即可保持稳定性能。
Aiming to augment generative models with external memory, we interpret the output of a memory module with stochastic addressing as a conditional mixture distribution, where a read operation corresponds to sampling a discrete memory address and retrieving the corresponding content from memory. This perspective allows us to apply variational inference to memory addressing, which enables effective training of the memory module by using the target information to guide memory lookups. Stochastic addressing is particularly well-suited for generative models as it naturally encourages multimodality which is a prominent aspect of most high-dimensional datasets. Treating the chosen address as a latent variable also allows us to quantify the amount of information gained with a memory lookup and measure the contribution of the memory module to the generative process. To illustrate the advantages of this approach we incorporate it into a variational autoencoder and apply the resulting model to the task of generative few-shot learning. The intuition behind this architecture is that the memory module can pick a relevant template from memory and the continuous part of the model can concentrate on modeling remaining variations. We demonstrate empirically that our model is able to identify and access the relevant memory contents even with hundreds of unseen Omniglot characters in memory
研究动机与目标
- 为解决生成模型中有效记忆检索的挑战,将记忆寻址视为随机潜在变量。
- 通过利用目标信息实现精确记忆查找,使基于变分推断的内存增强型生成模型得以训练。
- 在不降低性能的前提下,将内存增强型模型扩展至大型内存库(例如 2500+ 个条目)。
- 提供一种合理的方法来量化记忆查找带来的信息增益,并通过离散地址上的 KL 散度测量内存贡献。
- 证明离散记忆寻址在 few-shot 生成任务中的有效性,尤其是在记忆内容互不重叠且不可插值的情况下。
提出的方法
- 模型将记忆读取解释为条件混合分布,其中离散地址变量 a 选择记忆内容 m_a,后者再作为连续潜在变量 z 生成的条件。
- 使用变分近似 q(a|x) 推断记忆地址,通过输入 x 与记忆内容之间的学习相似度度量计算地址上的注意力分布。
- 采用摊销变分推断训练记忆寻址模块,使通过随机地址选择的梯度可基于反向传播进行优化。
- 生成模型结构为 p(x|m_a, z),其中 m_a 基于采样的地址 a 从内存中检索,z 为建模残差变化的连续潜在变量。
- 将近似后验 q(a|x) 与先验 p(a) 之间的 KL 散度用作正则化项,并提供有意义的记忆使用度量。
- 该方法在训练中支持硬注意力(采样),通过 K 个后验样本实现,即使在大内存规模下也能实现可扩展且稳定的优化。
实验结果
研究问题
- RQ1离散的、随机的记忆寻址是否能提升内存增强型生成模型在 few-shot 学习中的准确率与鲁棒性?
- RQ2与软注意力机制相比,对离散记忆地址进行变分推断在可扩展性与性能方面表现如何?
- RQ3对离散寻址变量的 KL 散度是否可作为记忆使用与模型行为的可靠指标?
- RQ4当测试时使用大量训练期间未见过的记忆条目时,模型是否仍能保持强性能?
- RQ5在记忆内容互不重叠且不可插值的情况下,模型是否能有效泛化,而无需温度退火或架构修改?
主要发现
- 在包含 16 个类别的 5 类 1-shot Omniglot 任务中,该模型实现了 89.6% 的 few-shot 分类准确率,优于软注意力基线,后者在超过 4 个类时性能迅速下降。
- 在测试时使用 2500 个记忆条目,而模型仅在 32 个条目上进行训练,仍能实现稳健的零样本迁移与可扩展性。
- 该模型无需温度退火即可保持高性能,因为 p(a) 与 q(a|x) 之间的相互作用自然平衡了探索与利用。
- 在 Omniglot 数据集上,使用 q(a|x) 进行推理时,5 类 1-shot 和 5-shot 分类的准确率分别达到 91% 和 97%。
- 对离散地址变量的 KL 散度表现出直观行为:在 MNIST 上值较低(组件较少),在 Omniglot 上值较高(组件较多),表明记忆使用有效。
- 当内存条目数 M ≥ 48 时,硬注意力实现的计算效率超过软注意力基线,因为每次参数更新的计算开销更低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。