QUICK REVIEW

[论文解读] A mathematical model for automatic differentiation in machine learning

Jérôme Bolte, Edouard Pauwels|arXiv (Cornell University)|Jun 3, 2020

Computability, Logic, AI Algorithms参考文献 39被引用 24

一句话总结

本文提出了一种用于机器学习中自动微分（AD）的数学框架，通过引入选择导数和非光滑微积分，解决了AD在非光滑函数上的不稳定性问题。研究表明，AD产生的虚假临界点源于程序表示而非函数结构本身，并证明了随机优化方法以概率1避免这些虚假临界点，从而为AD在实践中的操作提供了严格模型。

ABSTRACT

Automatic differentiation, as implemented today, does not have a simple mathematical model adapted to the needs of modern machine learning. In this work we articulate the relationships between differentiation of programs as implemented in practice and differentiation of nonsmooth functions. To this end we provide a simple class of functions, a nonsmooth calculus, and show how they apply to stochastic approximation methods. We also evidence the issue of artificial critical points created by algorithmic differentiation and show how usual methods avoid these points with probability one.

研究动机与目标

为现代机器学习中自动微分（AD）缺乏稳定的数学理论，特别是针对非光滑、非凸函数的问题提供解决方案。
形式化AD结果与经典微分之间的差异，表明AD作用于程序表示而非函数等价性。
引入一类新的非光滑函数及一种微分演算（选择导数），以捕捉实际AD的行为特征。
证明随机优化方法以概率1避免AD引入的虚假临界点。
为深度学习框架（如PyTorch和TensorFlow）中的AD提供一个严格的操作模型。

提出的方法

引入一个典范满射 𝒫 → 𝒇，将程序映射到其数学函数，表明AD作用于程序结构而非函数等价性。
将选择导数定义为一类在机器学习中常见的非光滑、非凸函数的微分对象，从而实现稳定的微积分演算。
利用可定义集和分层理论分析虚假临界点或不可微性出现的集合的维数。
应用Baire范畴定理和测度论论证，表明导致虚假临界点的初始条件集合是第一纲集且测度为零。
在有界性假设下，建立使用选择导数的随机次梯度序列收敛于Clarke临界点的结论。
证明对于几乎所有初始条件，AD-based优化生成的序列在行为上等价于带有零均值噪声的随机次梯度方法。

实验结果

研究问题

RQ1为何自动微分会对数学上等价的程序（如ReLU的不同实现）产生不一致的导数值？
RQ2能否定义一个数学算子，以推广算法微分在非光滑函数上的应用，同时保持在不可微点处的次梯度包含性等关键性质？
RQ3AD在非光滑设置下引入的虚假临界点在几何和测度论上的本质是什么？
RQ4在实践中，随机优化方法如何避免AD引入的虚假临界点？
RQ5选择导数能否提供一种稳定且具有操作意义的微积分体系，以建模深度学习框架中真实AD行为？

主要发现

根据定理1，算法微分无法在函数上由一致的微分算子表示，因为其导数值依赖于程序结构。
虚假临界点源于程序表示而非函数结构，且局限于测度为零且拓扑上为第一纲的集合中。
导致虚假临界点或不可微性的初始条件集合是闭集，内部为空，且勒贝格测度为零。
对于几乎所有初始条件，AD-based优化生成的序列等价于带有零均值噪声的随机次梯度序列。
当有界时，随机优化方法以概率1收敛于Clarke临界点，验证了其在AD存在虚假行为的情况下仍具有实际鲁棒性。
选择导数为机器学习中非光滑、非凸函数提供了数学上严谨且具有操作相关性的微积分体系。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。