Skip to main content
QUICK REVIEW

[论文解读] Managing Solution Stability in Decision-Focused Learning with Cost Regularization

Victor Spitzer, François Sanson|arXiv (Cornell University)|Jan 29, 2026
Advanced Multi-Objective Optimization Algorithms被引用 0
一句话总结

论文分析了基于扰动的决策聚焦学习(DFL)如何可能遭遇解的不稳定,并提出成本向量正则化以维持稳定性并提升学习可靠性。

ABSTRACT

Decision-focused learning integrates predictive modeling and combinatorial optimization by training models to directly improve decision quality rather than prediction accuracy alone. Differentiating through combinatorial optimization problems represents a central challenge, and recent approaches tackle this difficulty by introducing perturbation-based approximations. In this work, we focus on estimating the objective function coefficients of a combinatorial optimization problem. Our study demonstrates that fluctuations in perturbation intensity occurring during the learning phase can lead to ineffective training, by establishing a theoretical link to the notion of solution stability in combinatorial optimization. We propose addressing this issue by introducing a regularization of the estimated cost vectors which improves the robustness and reliability of the learning process, as demonstrated by extensive numerical experiments.

研究动机与目标

  • 将预测建模与组合优化的融合动机化,以提高决策质量而不仅仅是预测准确性。
  • 从解的稳定性角度,刻画扰动强度如何通过组合优化中的学习产生影响。
  • 提出成本正则化以控制成本估计的稳定半径并在训练中增强鲁棒性。
  • 通过理论性质和数值实验证明,正则化成本向量能在基准测试中提升学习的可靠性。

提出的方法

  • 将学习问题建模为一个通过可微预测器估计 MILP 的成本;决策由优化映射 f 产生。
  • 使用基于扰动的微分框架对优化映射进行微分,并将梯度与成本估计相关联。
  • 利用集合值优化中的上半连续性和稳定半径分析扰动如何影响所选的最优解。
  • 提出一种成本正则化方法,通过对成本向量归一化来界定稳定半径,确保扰动尺度与成本尺度相称。
  • 讨论正则化如何使扰动尺度与成本估计保持一致,从而在训练期间保持有信息性的下降方向。
Figure 1 : Toy Problem Illustration
Figure 1 : Toy Problem Illustration

实验结果

研究问题

  • RQ1解的稳定性如何影响基于扰动的决策聚焦学习方法的有效性?
  • RQ2是否可以使用成本正则化来控制成本估计的稳定半径以提升学习的可靠性?
  • RQ3当解的稳定性未得到正确管理时,现有的 DFL 技术对扰动有何反应,正则化是否能防止降级为模仿学习?
  • RQ4支撑扰动与 MILP 最优解关系的理论性质(如上半连续性、尺度不变性)有哪些?

主要发现

  • 相对估计成本的扰动尺度决定了学习信号是信息性还是误导性的。
  • 若不控制解的稳定性,基于经验的 DFL 方法可能退化为模仿学习或无法提供有用的梯度。
  • Fenchel–Young 损失在某些尺度条件下表现得像模仿损失,可能使学习过程崩溃。
  • 隐式扰动方法需要扰动与成本估计处于同一尺度,才能提供有意义的梯度。
  • 成本正则化通过归一化来界定稳定半径,维持学习所需的邻域探索。
  • 正则化在数值实验中显示出提升鲁棒性和学习可靠性。
(a) DPO model at seed 0
(a) DPO model at seed 0

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。