[论文解读] On Differentiating Parameterized Argmin and Argmax Problems with Application to Bi-level Optimization
本文推导了参数化的 argmin/argmax 问题的梯度公式,扩展到受约束的情形,并在双层优化场景中通过示例展示其应用。
Some recent works in machine learning and computer vision involve the solution of a bi-level optimization problem. Here the solution of a parameterized lower-level problem binds variables that appear in the objective of an upper-level problem. The lower-level problem typically appears as an argmin or argmax optimization problem. Many techniques have been proposed to solve bi-level optimization problems, including gradient descent, which is popular with current end-to-end learning approaches. In this technical report we collect some results on differentiating argmin and argmax optimization problems with and without constraints and provide some insightful motivating examples.
研究动机与目标
- 在上层目标依赖于下层 argmin/argmax 问题解的情况下,激发双层优化的动机。
- 提供一阶梯度方法,将下层解对上层参数求导。
- 将微分结果扩展到带等式和不等式约束的下层问题。
- 结合包括 softmax 分类器在内的示例,说明实际计算。
- 讨论梯度基双层学习的不变性性质和实际注意事项。
提出的方法
- 给出并证明 g(x)=argmin_y f(x,y) 的梯度公式,当 x 为标量时,得到 dg/dx = -f_YY(x,g(x))^{-1} f_XY(x,g(x)),并推广到向量 x 的情形(n×n 的 Hessian 和互变导数)。
- 在适当条件下,展示对 argmax 的推广,其导数形式与上述相同。
- 将结果扩展到线性等式约束,推导 y 满足 Ay=b 时 g'(x) = -F(F^T f_Y Y F)^{-1}F^T f_XY,并给出备选的基于拉格朗日的方法表达。
- 通过对数屏障近似,发展对线性不等式约束的处理,给出包含屏障项的梯度近似。
- 提供一组结构化的引理(无约束、等式约束、不等式约束),以在双层设置中实现实际的梯度计算。
- 包含示例和直观解释来说明梯度计算(均值示例、多极小值示例、softmax 分类器)。
实验结果
研究问题
- RQ1如何计算下层 argmin/argmax 解对外层参数的灵敏度(梯度)?
- RQ2这些梯度公式如何扩展到带约束的下层问题(等式和不等式)?
- RQ3哪些实际指导和示例展示将这些导数应用于双层优化和端到端学习?
- RQ4内层目标的单调变换是否会影响驻点及其梯度?
- RQ5如何将这些结果用于基于梯度的双层学习,例如优化 softmax 分类器或超参数?
主要发现
- 推导了带参数的 argmin/argmax 的标量和向量梯度公式:dg/dx = -f_YY^{-1} f_XY(对应的 Hessian 取决于情形)。
- 将微分扩展到向量 x 与多个参数,给出简洁的矩阵形式。
- 给出带线性等式约束的结果:g'(x) 通过约束的零空间投影,和替代的基于拉格朗日的表达。
- 通过对数屏障近似对不等式约束的处理,以及随屏障参数增大收敛到无约束结果的梯度表达。
- 展示了在 softmax 分类器似然景观中的应用,包括对模型参数的 argmax 特征向量的梯度。
- 说明了驻点在内层目标的单调变换下的不变性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。