Skip to main content
QUICK REVIEW

[论文解读] Deep learning and the renormalization group

Cédric Bény|arXiv (Cornell University)|Jan 14, 2013
Quantum many-body systems参考文献 8被引用 39
一句话总结

本文通过展示多尺度纠缠重正化组变分法(MERA)——一种原本用于量子多体物理的方法——可被重新解释为用于经典概率分布的深度生成模型,建立了深度学习与重正化群(RG)之间的概念与算法桥梁。通过利用局部相关性和分层粗化,该方法实现了无需采样的高效学习,为标准深度学习提供了一种可扩展且具备结构感知能力的替代方案。

ABSTRACT

Renormalization group (RG) methods, which model the way in which the effective behavior of a system depends on the scale at which it is observed, are key to modern condensed-matter theory and particle physics. We compare the ideas behind the RG on the one hand and deep machine learning on the other, where depth and scale play a similar role. In order to illustrate this connection, we review a recent numerical method based on the RG---the multiscale entanglement renormalization ansatz (MERA)---and show how it can be converted into a learning algorithm based on a generative hierarchical Bayesian network model. Under the assumption---common in physics---that the distribution to be learned is fully characterized by local correlations, this algorithm involves only explicit evaluation of probabilities, hence doing away with sampling.

研究动机与目标

  • 建立深度学习与重正化群(RG)之间的概念与算法联系,特别是阐明两者在深度与尺度关系上的共性。
  • 将原本用于量子多体系统的多尺度纠缠重正化组变分法(MERA)转化为用于生成建模的经典深度学习算法。
  • 通过利用局部相关性和分层粗化,实现对复杂概率分布的高效学习,避免采样需求。
  • 证明基于RG原理的分层贝叶斯网络可通过迭代优化粗粒化表示,有效建模长程关联。
  • 表明可通过仅使用局部边缘概率进行逐层训练,使该方法具备可扩展性与计算可行性。

提出的方法

  • 将MERA重新表述为分层贝叶斯网络,其中每一层应用随机粗化映射,将细粒度变量转换为有效粗粒度变量。
  • 利用小簇站点上的局部约化态(边缘分布)训练第一层,以确保短程相关性得以保留。
  • 对粗化映射进行贝叶斯反演,将各尺度上的训练数据与模型的重正化输出进行比较,实现迭代优化。
  • 通过最大化观测到的局部边缘概率的似然性来优化随机映射(通道)的参数,避免对完整分布进行采样。
  • 采用多轮训练策略:先在局部数据上训练第一层,再将其输出作为先验用于训练后续各层,逐步覆盖更大尺度。
  • 将训练数据视为未知分布的样本,并基于局部哈密顿量结构的假设,推断各尺度上的有效模型。

实验结果

研究问题

  • RQ1重正化群的分层粗化过程能否被改编为适用于经典概率分布的深度学习框架?
  • RQ2原本作为量子态表示的多尺度纠缠重正化组变分法(MERA)应如何被重新解释为经典数据的生成模型?
  • RQ3在仅依赖局部边缘概率的前提下,多大程度上可构建无需采样的深度学习模型?
  • RQ4基于RG原理的分层贝叶斯网络能否通过迭代粗化有效捕捉长程关联?
  • RQ5局部相关性在实现深度模型中可扩展且具备结构感知的学习中起到何种作用?

主要发现

  • 通过将量子态制备替换为概率推理,MERA框架可成功转化为用于经典概率分布的深度学习算法。
  • 该方法通过仅显式计算局部边缘概率即可实现无采样训练,显著降低计算成本。
  • 模型的分层结构使得通过迭代粗化可高效建模长程关联,模拟了RG流的行为。
  • 可通过使用局部数据逐层训练,后续各层以先前层的输出作为先验,实现可扩展的优化。
  • 通过迭代应用随机映射,该方法自然捕捉到涌现的序参量与高层特征,类似于深度学习中的特征层次结构。
  • 该方法对非局部结构具有鲁棒性,因为各尺度上的随机映射可独立调整,以反映未编码在短程相关性中的长程依赖。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。