Skip to main content
QUICK REVIEW

[论文解读] Learning with Differentiable Perturbed Optimizers

Quentin Berthet, Mathieu Blondel|arXiv (Cornell University)|Feb 20, 2020
Metaheuristic Optimization Algorithms Research参考文献 4被引用 45
一句话总结

提出一种通用方法,通过随机扰动使离散优化器可微分,从而实现端到端学习并与 Fenchel-Young 损失相关联,应用于排序和最短路径等任务。

ABSTRACT

Machine learning pipelines often rely on optimization procedures to make discrete decisions (e.g., sorting, picking closest neighbors, or shortest paths). Although these discrete decisions are easily computed, they break the back-propagation of computational graphs. In order to expand the scope of learning problems that can be solved in an end-to-end fashion, we propose a systematic method to transform optimizers into operations that are differentiable and never locally constant. Our approach relies on stochastically perturbed optimizers, and can be used readily together with existing solvers. Their derivatives can be evaluated efficiently, and smoothness tuned via the chosen noise amplitude. We also show how this framework can be connected to a family of losses developed in structured prediction, and give theoretical guarantees for their use in learning tasks. We demonstrate experimentally the performance of our approach on various tasks.

研究动机与目标

  • 在包含离散求解器的流程(如排序、最短路径)中实现端到端的可微分性。
  • 引入一种系统性的基于扰动的平滑化,使输出可微分且非常量。
  • 建立理论保证并与结构化预测的 Fenchel-Young 损失建立联系。
  • 提供一个实际、可并行的学习框架,采用双重随机优化。
  • 在排序和最短路径预测等任务上展示有效性,并发布伴随的软件。

提出的方法

  • 用随机噪声 εZ 扰动输入 θ,并研究被扰动的极大化点 y*_ε(θ)。
  • 定义被扰动的最大值 F_ε(θ)=E[F(θ+εZ)],并表明 y*_ε(θ)=∇_θF_ε(θ)。
  • 给出 F_ε 与 y*_ε 的导数可表示为简单的关于噪声输入的期望,从而能够进行蒙特卡洛估计。
  • 将 y*_ε 通过 Fenchel 对偶性与 Ω=(F_ε)^* 的正则化优化建立联系,并与 Fenchel-Young 损失相关。
  • 引入一个双重随机梯度训练方案,使用蒙特卡洛样本来近似梯度。
  • 概述将其实现为通过对任何求解器的黑箱差分实现,方法是对扰动进行采样并求解原始线性规划(LPs)。

实验结果

研究问题

  • RQ1是否能够用系统的、与求解器无关的方法,通过随机扰动使离散优化器具有可微性?
  • RQ2如何通过期望或蒙特卡洛估计有效地计算被扰动极大化点的梯度和雅可比?
  • RQ3在这个扰动框架中,Fenchel-Young 损失如何自然地出现,以及如何优化?
  • RQ4基于扰动的方法在结构化预测任务(如排序和最短路径)上是否表现良好?

主要发现

  • 在 ε>0 时,被扰动的极大点 y*_ε(θ) 对 θ 可微,且雅可比矩阵非零。
  • F_ε 与 y*_ε 的导数由关于带噪声输入的简单期望给出,从而实现高效计算。
  • 可以推导出一个凸的 Fenchel-Young 损失,并通过不需要极大点的雅可比的梯度来优化。
  • 双重随机梯度方法通过使用扰动的蒙特卡洛估计来加速学习,而不需要封闭形式的分布。
  • 在 CIFAR-10、标签排序和最短路径任务上的实验显示具竞争力或更优的性能,并且对温度 ε 的鲁棒性。
  • 该方法可以作为插件应用,将任何黑箱求解器转换为可微分的模块,并计划提供开源实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。