[论文解读] Limitations of the Empirical Fisher Approximation.
本文挑战了在自然梯度方法中使用经验Fisher矩阵作为真实Fisher信息矩阵代理的合理性。它表明,经验Fisher在实践中无法捕捉到二阶信息,即使在简单问题上也会导致次优的优化行为,并指出其近似Fisher或Hessian的条件在现实中极少满足。
Natural gradient descent, which preconditions a gradient descent update with the Fisher information matrix of the underlying statistical model, is a way to capture partial second-order information. Several highly visible works have advocated an approximation known as the empirical Fisher, drawing connections between approximate second-order methods and heuristics like Adam. We dispute this argument by showing that the empirical Fisher---unlike the Fisher---does not generally capture second-order information. We further argue that the conditions under which the empirical Fisher approaches the Fisher (and the Hessian) are unlikely to be met in practice, and that, even on simple optimization problems, the pathologies of the empirical Fisher can have undesirable effects.
研究动机与目标
- 挑战广泛存在的假设,即经验Fisher可近似真实Fisher信息矩阵,用于自然梯度下降。
- 调查经验Fisher是否能可靠地捕捉如若干有影响力的研究所声称的二阶优化信息。
- 识别在如Adam等优化算法中使用经验Fisher的实际局限性和病态行为。
- 阐明经验Fisher可能近似Fisher或Hessian的条件,并评估其在实际深度学习场景中的可行性。
提出的方法
- 分析经验Fisher、真实Fisher信息矩阵与损失函数Hessian之间的数学关系。
- 推导经验Fisher收敛至真实Fisher或Hessian的条件,并评估其实际可行性。
- 在简单优化问题上进行实验评估,以展示经验Fisher的病态行为。
- 对比使用真实Fisher与使用经验Fisher的自然梯度下降行为,突出性能差异。
实验结果
研究问题
- RQ1在何种条件下,经验Fisher可近似真实Fisher信息矩阵?
- RQ2经验Fisher是否如先前研究声称的那样,能捕捉对优化有意义的二阶信息?
- RQ3在自然梯度下降中,使用经验Fisher与使用真实Fisher时,优化动态有何不同?
- RQ4经验Fisher近似Hessian或Fisher所需的假设在实际深度学习设置中是否现实?
主要发现
- 经验Fisher通常无法捕捉二阶信息,而真实Fisher信息矩阵可以。
- 经验Fisher趋近真实Fisher或Hessian的条件在现实中极不可能满足。
- 即使在简单优化问题上,经验Fisher也表现出病态行为,导致优化性能下降。
- 在Adam等方法中使用经验Fisher,并不能通过捕捉二阶信息来合理化,从而削弱了此类启发式方法的理论基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。