Skip to main content
QUICK REVIEW

[论文解读] On Differentiating Parameterized Argmin and Argmax Problems with Application to Bi-level Optimization

Stephen Jay Gould, Basura Fernando|arXiv (Cornell University)|Jul 19, 2016
Advanced Optimization Algorithms Research参考文献 12被引用 118
一句话总结

本文推导了参数化的 argmin/argmax 问题的梯度公式,扩展到受约束的情形,并在双层优化场景中通过示例展示其应用。

ABSTRACT

Some recent works in machine learning and computer vision involve the solution of a bi-level optimization problem. Here the solution of a parameterized lower-level problem binds variables that appear in the objective of an upper-level problem. The lower-level problem typically appears as an argmin or argmax optimization problem. Many techniques have been proposed to solve bi-level optimization problems, including gradient descent, which is popular with current end-to-end learning approaches. In this technical report we collect some results on differentiating argmin and argmax optimization problems with and without constraints and provide some insightful motivating examples.

研究动机与目标

  • 在上层目标依赖于下层 argmin/argmax 问题解的情况下,激发双层优化的动机。
  • 提供一阶梯度方法,将下层解对上层参数求导。
  • 将微分结果扩展到带等式和不等式约束的下层问题。
  • 结合包括 softmax 分类器在内的示例,说明实际计算。
  • 讨论梯度基双层学习的不变性性质和实际注意事项。

提出的方法

  • 给出并证明 g(x)=argmin_y f(x,y) 的梯度公式,当 x 为标量时,得到 dg/dx = -f_YY(x,g(x))^{-1} f_XY(x,g(x)),并推广到向量 x 的情形(n×n 的 Hessian 和互变导数)。
  • 在适当条件下,展示对 argmax 的推广,其导数形式与上述相同。
  • 将结果扩展到线性等式约束,推导 y 满足 Ay=b 时 g'(x) = -F(F^T f_Y Y F)^{-1}F^T f_XY,并给出备选的基于拉格朗日的方法表达。
  • 通过对数屏障近似,发展对线性不等式约束的处理,给出包含屏障项的梯度近似。
  • 提供一组结构化的引理(无约束、等式约束、不等式约束),以在双层设置中实现实际的梯度计算。
  • 包含示例和直观解释来说明梯度计算(均值示例、多极小值示例、softmax 分类器)。

实验结果

研究问题

  • RQ1如何计算下层 argmin/argmax 解对外层参数的灵敏度(梯度)?
  • RQ2这些梯度公式如何扩展到带约束的下层问题(等式和不等式)?
  • RQ3哪些实际指导和示例展示将这些导数应用于双层优化和端到端学习?
  • RQ4内层目标的单调变换是否会影响驻点及其梯度?
  • RQ5如何将这些结果用于基于梯度的双层学习,例如优化 softmax 分类器或超参数?

主要发现

  • 推导了带参数的 argmin/argmax 的标量和向量梯度公式:dg/dx = -f_YY^{-1} f_XY(对应的 Hessian 取决于情形)。
  • 将微分扩展到向量 x 与多个参数,给出简洁的矩阵形式。
  • 给出带线性等式约束的结果:g'(x) 通过约束的零空间投影,和替代的基于拉格朗日的表达。
  • 通过对数屏障近似对不等式约束的处理,以及随屏障参数增大收敛到无约束结果的梯度表达。
  • 展示了在 softmax 分类器似然景观中的应用,包括对模型参数的 argmax 特征向量的梯度。
  • 说明了驻点在内层目标的单调变换下的不变性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。