QUICK REVIEW

[논문 리뷰] Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Hongyu Cao, Jinghan Zhang|arXiv (Cornell University)|2026. 03. 10.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

Sim2Act는 의사결정에 결정적으로 중요한 영역에서 시뮬레이터를 적대적으로 보정하고 그룹 상대 섭동으로 정책을 학습시켜 불확실성 하에서 의사결정을 안정시키며 시뮬레이션과 의사결정을 공동으로 강건화한다.

ABSTRACT

Simulation-to-decision learning enables safe policy training in digital environments without risking real-world deployment, and has become essential in mission-critical domains such as supply chains and industrial systems. However, simulators learned from noisy or biased real-world data often exhibit prediction errors in decision-critical regions, leading to unstable action ranking and unreliable policies. Existing approaches either focus on improving average simulation fidelity or adopt conservative regularization, which may cause policy collapse by discarding high-risk high-reward actions. We propose Sim2Act, a robust simulation-to-decision framework that addresses both simulator and policy robustness. First, we introduce an adversarial calibration mechanism that re-weights simulation errors in decision-critical state-action pairs to align surrogate fidelity with downstream decision impact. Second, we develop a group-relative perturbation strategy that stabilizes policy learning under simulator uncertainty without enforcing overly pessimistic constraints. Extensive experiments on multiple supply chain benchmarks demonstrate improved simulation robustness and more stable decision performance under structured and unstructured perturbations.

연구 동기 및 목표

노이즈가 많고 편향되며 불완전한 데이터가 있는 고위험 도메인(예: 공급망)에서 강건한 시뮬레이션-의사결정 학습을 촉진한다.
의사결정이 중요한 영역에서의 시뮬레이션-액션 불일치와 불확실성 하에서 지나치게 보수적인 정책의 두 가지 핵심 약점을 다룬다.
Sim2Act를 제안하여 시뮬레이션 충실도와 행동 유용성을 맞추고 섭동 하에서 정책 순위를 안정화한다.
다양한 공급망 벤치마크에서 개선된 강건성과 의사결정 품질을 보여준다.

제안 방법

액션-조건부 가중치를 사용하여 예측 오차의 재가중치를 통해 의사결정-중요 영역을 우선시하는 적대적 시뮬레이터 보정을 도입한다.
의사결정이 높은 영향의 오차를 강조하도록 최대화하는 calibrator와 이를 최소화하는 시뮬레이터로 구성된 두 플레이어 minimax 목적을 개발한다.
액션-조건부 중요도 가중치를 출력하는 보정기가 있는 LSTM 기반 대리 시뮬레이터를 구현한다.
각 상태 주변의 잠재 공간 교란을 샘플링하고 교란된 상태 그룹에서 정책을 학습하여 상대적 행동 유용성을 보존하는 그룹 상대 Perturbation을 제안한다.
그룹-상대 손실을 그룹-이익 항과 유용성-격차 항을 결합하여 강건한 정책 학습을 유도한다.
교대 최적화를 사용하여 보정기와 시뮬레이터를 (minimax) 학습하고 그룹 상대 교란으로 의사결정자를 학습시킨다.

실험 결과

연구 질문

RQ1결정-중요 영역에서의 시뮬레이션 오차를 어떻게 글로벌 정확도를 희생하지 않고 줄일 수 있는가?
RQ2정책이 모든 불확실성을 위협으로 취급하고 고위험-고보상 행동을 희생하는 것을 어떻게 방지할 수 있는가?
RQ3행동 정렬 시뮬레이터 보정과 그룹 상대 섭동을 통합하면 구조화되거나 비구조화된 교란 하에서 시뮬레이션과 의사결정의 강건성이 향상되는가?
RQ4제안된 방법이 존중적으로 nominal 시뮬레이션 및 의사결정 성능을 유지하거나 향상시키면서 강건성을 강화하는가?
RQ5강건성 이점이 다양한 공급망 벤치마크에서 일관되게 나타나는가?

주요 결과

Sim2Act는 잠재-구조화 및 무작위 교란 하에서 DataCo, GlobalStore, OAS에서 기존 방법보다 더 강한 강건성을 달성한다.
행동 정렬 시뮬레이터 보정은 의사결정-중요 행동에 개선을 집중시키고 최악의 경우 시뮬레이터 신뢰성을 향상시킨다.
그룹 상대 교란은 교란 그룹 내에서 정책의 상대적 선호를 안정화시켜 분산을 줄이고 정책 붕괴를 방지한다.
Sim2Act는 강건성을 향상시키면서 다운스트림 의사결정 지표(이익 및 적시 도착률)를 유지하거나 개선한다.
제외 연구에서 시뮬레이터 보정과 의사결정 교란 모두 강건성에 기여하며 이들의 결합 사용이 최상의 결과를 낳는다.
교란 하에서 CVaR@5%는 Sim2Act에서 여전히 높게 유지되어 꼬리 위험 관리가 더 잘 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.