Skip to main content
QUICK REVIEW

[论文解读] Limitations of the Empirical Fisher Approximation for Natural Gradient Descent

Frederik Künstner, Lukas Balles|arXiv (Cornell University)|May 29, 2019
Stochastic Gradient Optimization Techniques被引用 40
一句话总结

经验Fisher通常不能捕获像Fisher或Hessian这样的二阶信息,其用于预传导可能会扭曲更新;论文主张使用真正的Fisher并将方差适应作为对基于EF的方法的替代解释。

ABSTRACT

Natural gradient descent, which preconditions a gradient descent update with the Fisher information matrix of the underlying statistical model, is a way to capture partial second-order information. Several highly visible works have advocated an approximation known as the empirical Fisher, drawing connections between approximate second-order methods and heuristics like Adam. We dispute this argument by showing that the empirical Fisher---unlike the Fisher---does not generally capture second-order information. We further argue that the conditions under which the empirical Fisher approaches the Fisher (and the Hessian) are unlikely to be met in practice, and that, even on simple optimization problems, the pathologies of the empirical Fisher can have undesirable effects.

研究动机与目标

  • 澄清经验Fisher、Fisher与广义高斯-牛顿(GGN)矩阵之间的关系。
  • 表明经验Fisher并不能可靠地捕捉二阶信息。
  • 解释经验Fisher近似Fisher的条件以及在实践中这些条件很少成立的原因。
  • 展示EF预处理的成像病态及不良影响,即使在简单问题上。
  • 提出对GGN定义的修订,并讨论方差适应作为对基于EF的方法的替代理解。

提出的方法

  • 回顾自然梯度下降(NGD)和广义高斯-牛顿(GGN)的定义。
  • 比较Fisher(式(2))和经验Fisher(式(3))并讨论它们的解释。
  • 分析GGN构造中的分裂并提出一个澄清,以确保获得有用的曲率信息(定义1)。
  • 提供反例,显示EF对梯度场的扭曲以及远离极值点时的缩放问题。
  • 讨论EF在极小值附近收敛到Fisher的条件(命题2及相关讨论)。
  • 引入方差自适应视角(Eq.19),作为对基于EF的方法的实际成功的替代解释。

实验结果

研究问题

  • RQ1经验Fisher是否始终能稳定地近似Fisher和Hessian?
  • RQ2在什么条件下,EF在最优点附近会收敛到Fisher(若存在)?
  • RQ3经验Fisher是否会扭曲梯度更新,以及在简单问题上如何表现?
  • RQ4对广义高斯-牛顿定义的哪些修订可以改善对EF的解释?
  • RQ5基于EF的方法的实际成功是否可以用方差适应来解释,而非曲率?

主要发现

  • 经验Fisher遵循广义高斯-牛顿矩阵的形式定义,但所选的分裂可能无法保留有用的二阶信息。
  • 经验Fisher与Fisher之间的关系仅在强且不太可能成立的假设下存在(可实现的模型和足够的数据)。
  • 在距离最优点较远处使用经验Fisher进行预处理可能扭曲梯度方向和大小,有时甚至非常严重。
  • EF可能导致更新与梯度幅值成反比,增加步长调整的复杂性。
  • 方差适应提供了对EF基础方法实际成功的替代理解,而不是曲率适应。
  • 真正的Fisher被呈现为更安全且通常更可取的曲率矩阵。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。