QUICK REVIEW

[논문 리뷰] Managing Solution Stability in Decision-Focused Learning with Cost Regularization

Victor Spitzer, François Sanson|arXiv (Cornell University)|2026. 01. 29.

Advanced Multi-Objective Optimization Algorithms인용 수 0

한 줄 요약

본 논문은 perturbation-based decision-focused learning (DFL)이 해의 불안정성으로 고전할 수 있음을 분석하고, 안정성을 유지하며 학습 신뢰성을 높이기 위한 비용 벡터 규제를 제안한다.

ABSTRACT

Decision-focused learning integrates predictive modeling and combinatorial optimization by training models to directly improve decision quality rather than prediction accuracy alone. Differentiating through combinatorial optimization problems represents a central challenge, and recent approaches tackle this difficulty by introducing perturbation-based approximations. In this work, we focus on estimating the objective function coefficients of a combinatorial optimization problem. Our study demonstrates that fluctuations in perturbation intensity occurring during the learning phase can lead to ineffective training, by establishing a theoretical link to the notion of solution stability in combinatorial optimization. We propose addressing this issue by introducing a regularization of the estimated cost vectors which improves the robustness and reliability of the learning process, as demonstrated by extensive numerical experiments.

연구 동기 및 목표

예측 정확도만이 아니라 의사결정 품질을 향상시키기 위해 예측 모델링과 조합 최적화의 결합 필요성을 제시한다.
조합 최적화에서 해의 안정성 관점에서 perturbation 강도가 학습에 어떤 영향을 미치는지 특징짓는다.
훈련 중 비용 추정의 안정성 반경을 제어하기 위한 비용 규제를 제안하고 강인성을 향상시킨다.
이론적 특성과 수치 실험을 통해 비용 벡터의 정규화가 벤치마크 전반에 걸쳐 학습 신뢰성을 향상시킴을 입증한다.

제안 방법

MILP의 비용이 미분 가능 예측기에 의해 추정되고, 결정은 최적화 매핑 f에 의해 생성되는 학습 문제를 모델링한다.
최적화 매핑을 미분하고 기울기를 비용 추정과 연결하기 위해 perturbation 기반 미분 프레임워크를 사용한다.
집합값 최적화의 상한 반연속성과 안정 반경을 활용하여扰 perturbations가 선택된 최적 해에 어떤 영향을 미치는지 분석한다.
비용 벡터를 정규화하여 안정성 반경을 한정하고, 교란 규모가 비용 규모와 비례하도록 하는 비용 규제 접근법을 제안한다.
정규화가 교란 규모를 비용 추정과 맞추어 학습 중 정보성이 있는 하강 방향을 보존하는지 논의한다.

실험 결과

연구 질문

RQ1해의 안정성이 perturbation 기반의 decision-focused learning 방법의 효과성에 어떤 영향을 미치는가?
RQ2비용 규제가 비용 추정의 안정성 반경을 제어하여 학습 신뢰성을 향상시키는 데 사용될 수 있는가?
RQ3해의 안정성이 제대로 관리되지 않을 때 기존 DFL 기법이 교란에 어떻게 반응하는지, 그리고 규제가 모방 학습으로의 악화를 방지할 수 있는가?
RQ4MILP에서 perturbation과 최적 해 간의 관계를 뒷받침하는 이론적 특성들(예: 상한 반연속성, 척도 불변성)은 무엇인가?

주요 결과

Perturbation 규모가 추정 비용에 대해 학습 신호가 정보적이거나 오도하는지 여부를 결정한다.
해의 안정성을 제어하지 않으면 경험 기반 DFL 방법이 모방 학습으로 악화되거나 유용한 그래디언트를 제공하지 못할 수 있다.
Fenchel–Young 손실은 특정 규모 조건에서 모방 손실처럼 작동하여 학습 과정을 붕괴시킬 수 있다.
암시적 교란 방법은 의미 있는 그래디언트를 제공하려면 교란이 비용 추정과 같은 규모여야 한다.
비용 규제가 안정성 반경을 한정하고 학습에 필수적인 이웃 탐색을 보존한다.
수치 실험에서 보이는 바와 같이 규제는 벤치마크 전반에 걸친 학습의 강인성과 신뢰성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.