Skip to main content
QUICK REVIEW

[논문 리뷰] Managing Solution Stability in Decision-Focused Learning with Cost Regularization

Victor Spitzer, François Sanson|arXiv (Cornell University)|2026. 01. 29.
Advanced Multi-Objective Optimization Algorithms인용 수 0
한 줄 요약

본 논문은 perturbation-based decision-focused learning (DFL)이 해의 불안정성으로 고전할 수 있음을 분석하고, 안정성을 유지하며 학습 신뢰성을 높이기 위한 비용 벡터 규제를 제안한다.

ABSTRACT

Decision-focused learning integrates predictive modeling and combinatorial optimization by training models to directly improve decision quality rather than prediction accuracy alone. Differentiating through combinatorial optimization problems represents a central challenge, and recent approaches tackle this difficulty by introducing perturbation-based approximations. In this work, we focus on estimating the objective function coefficients of a combinatorial optimization problem. Our study demonstrates that fluctuations in perturbation intensity occurring during the learning phase can lead to ineffective training, by establishing a theoretical link to the notion of solution stability in combinatorial optimization. We propose addressing this issue by introducing a regularization of the estimated cost vectors which improves the robustness and reliability of the learning process, as demonstrated by extensive numerical experiments.

연구 동기 및 목표

  • 예측 정확도만이 아니라 의사결정 품질을 향상시키기 위해 예측 모델링과 조합 최적화의 결합 필요성을 제시한다.
  • 조합 최적화에서 해의 안정성 관점에서 perturbation 강도가 학습에 어떤 영향을 미치는지 특징짓는다.
  • 훈련 중 비용 추정의 안정성 반경을 제어하기 위한 비용 규제를 제안하고 강인성을 향상시킨다.
  • 이론적 특성과 수치 실험을 통해 비용 벡터의 정규화가 벤치마크 전반에 걸쳐 학습 신뢰성을 향상시킴을 입증한다.

제안 방법

  • MILP의 비용이 미분 가능 예측기에 의해 추정되고, 결정은 최적화 매핑 f에 의해 생성되는 학습 문제를 모델링한다.
  • 최적화 매핑을 미분하고 기울기를 비용 추정과 연결하기 위해 perturbation 기반 미분 프레임워크를 사용한다.
  • 집합값 최적화의 상한 반연속성과 안정 반경을 활용하여扰 perturbations가 선택된 최적 해에 어떤 영향을 미치는지 분석한다.
  • 비용 벡터를 정규화하여 안정성 반경을 한정하고, 교란 규모가 비용 규모와 비례하도록 하는 비용 규제 접근법을 제안한다.
  • 정규화가 교란 규모를 비용 추정과 맞추어 학습 중 정보성이 있는 하강 방향을 보존하는지 논의한다.
Figure 1 : Toy Problem Illustration
Figure 1 : Toy Problem Illustration

실험 결과

연구 질문

  • RQ1해의 안정성이 perturbation 기반의 decision-focused learning 방법의 효과성에 어떤 영향을 미치는가?
  • RQ2비용 규제가 비용 추정의 안정성 반경을 제어하여 학습 신뢰성을 향상시키는 데 사용될 수 있는가?
  • RQ3해의 안정성이 제대로 관리되지 않을 때 기존 DFL 기법이 교란에 어떻게 반응하는지, 그리고 규제가 모방 학습으로의 악화를 방지할 수 있는가?
  • RQ4MILP에서 perturbation과 최적 해 간의 관계를 뒷받침하는 이론적 특성들(예: 상한 반연속성, 척도 불변성)은 무엇인가?

주요 결과

  • Perturbation 규모가 추정 비용에 대해 학습 신호가 정보적이거나 오도하는지 여부를 결정한다.
  • 해의 안정성을 제어하지 않으면 경험 기반 DFL 방법이 모방 학습으로 악화되거나 유용한 그래디언트를 제공하지 못할 수 있다.
  • Fenchel–Young 손실은 특정 규모 조건에서 모방 손실처럼 작동하여 학습 과정을 붕괴시킬 수 있다.
  • 암시적 교란 방법은 의미 있는 그래디언트를 제공하려면 교란이 비용 추정과 같은 규모여야 한다.
  • 비용 규제가 안정성 반경을 한정하고 학습에 필수적인 이웃 탐색을 보존한다.
  • 수치 실험에서 보이는 바와 같이 규제는 벤치마크 전반에 걸친 학습의 강인성과 신뢰성을 향상시킨다.
(a) DPO model at seed 0
(a) DPO model at seed 0

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.