Skip to main content
QUICK REVIEW

[论文解读] Large Associative Memory Problem in Neurobiology and Machine Learning

Dmitry Krotov, J. J. Hopfield|arXiv (Cornell University)|Aug 16, 2020
Machine Learning in Bioinformatics参考文献 33被引用 56
一句话总结

本文提出一种生物学上可行的两体(feature-memory)神经网络,具有隐藏神经元,能够实现大规模联想记忆容量,并通过基于能量的动力系统将 Dense Associative Memory 与 modern Hopfield 网络统一起来。

ABSTRACT

Dense Associative Memories or modern Hopfield networks permit storage and reliable retrieval of an exponentially large (in the dimension of feature space) number of memories. At the same time, their naive implementation is non-biological, since it seemingly requires the existence of many-body synaptic junctions between the neurons. We show that these models are effective descriptions of a more microscopic (written in terms of biological degrees of freedom) theory that has additional (hidden) neurons and only requires two-body interactions between them. For this reason our proposed microscopic theory is a valid model of large associative memory with a degree of biological plausibility. The dynamics of our network and its reduced dimensional equivalent both minimize energy (Lyapunov) functions. When certain dynamical variables (hidden neurons) are integrated out from our microscopic theory, one can recover many of the models that were previously discussed in the literature, e.g. the model presented in "Hopfield Networks is All You Need" paper. We also provide an alternative derivation of the energy function and the update rule proposed in the aforementioned paper and clarify the relationships between various models of this class.

研究动机与目标

  • 在生物学和人工智能中说明需要大容量联想记忆的动机。
  • 提出一个保持能量函数的微观两组(特征组和隐藏组)网络。
  • 证明对隐藏神经元进行消去/整合得到已知的 Dense Associative Memory 与 modern Hopfield 模型。
  • 证明所提出的框架包含若干极限情况(模型 A、B、C)。
  • 建立在动力学中能量逐渐降低的条件,确保收敛到固定点。

提出的方法

  • 在双分图区连接性中引入具有 Nf 个特征神经元和 Nh 个隐藏神经元的连续时间两组网络。
  • 用方程 (1) 定义将 v_i 和 h_mu 通过对称权重 xi_{i mu} 耦合的动力学,确保一个 Lyapunov 能量 (2)。
  • 将输出表示为拉格朗日函数的导数(f_mu = ∂L_h/∂h_mu, g_i = ∂L_v/∂v_i),以确保能量下降 (4)。
  • 在某些极限下对隐藏神经元进行整合,从而推导出特征层的有效模型(第 3.1–3.3 节)。
  • 表明 Model A 能回推 Dense Associative Memory (DAM) 与 Hopfield 极限;Model B 产生现代 Hopfield/注意力样动力学;Model C 产生球形记忆变体。
  • 给出更新规则和能量形式的明确推导(方程 (8)–(22)),并与注意力机制(如基于 softmax 的相互作用)相联系。

实验结果

研究问题

  • RQ1带隐藏单元的两体突触结构是否能实现大于特征空间维度 N_f 的记忆存储?
  • RQ2对隐藏神经元进行整合如何恢复现有的 dense/modern Hopfield 模型与注意力样动力学?
  • RQ3所提出框架的极限情况(模型 A、B、C)是什么,它们如何与已知网络相关?
  • RQ4在何种条件下网络能量下降,确保收敛到固定点?
  • RQ5在避免多体突触同时仍保留大容量记忆能力时,生物学可行性上的优势有哪些?

主要发现

  • 一种具有两体相互作用和隐藏神经元的生物学上可行的结构实现了超过 N_f 的存储容量,受 Nh 限制(N_mem ≤ Nh)。
  • 在 Model A 具有快速隐藏动力学和加性拉格朗日电能时,能量简化为一种 Dense Associative Memory 形式,进而推广 Hopfield 网络。
  • Model B 引入对比归一化,得到现代 Hopfield/注意力样的能量和更新规则,在连续时间下等价于点积注意力。
  • Model C 引入带有商归一化样式特征的球形记忆变体,产生不同的能量和动力学,同时保持两体相互作用。
  • 该框架将若干先前模型(DAM、现代 Hopfield、注意力机制)统一为单一基于能量的动态系统的极限情况。
  • 对于拉格朗日函数的正半定 Hessians,能量沿轨迹降低,确保收敛到固定点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。