QUICK REVIEW

[论文解读] Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Hongyu Cao, Jinghan Zhang|arXiv (Cornell University)|Mar 10, 2026

Adversarial Robustness in Machine Learning被引用 0

一句话总结

Sim2Act 通过在决策关键区域对仿真器进行对抗性校准并用基于组的扰动训练策略，在不确定性下稳定决策，从而共同提高仿真与决策的鲁棒性。

ABSTRACT

Simulation-to-decision learning enables safe policy training in digital environments without risking real-world deployment, and has become essential in mission-critical domains such as supply chains and industrial systems. However, simulators learned from noisy or biased real-world data often exhibit prediction errors in decision-critical regions, leading to unstable action ranking and unreliable policies. Existing approaches either focus on improving average simulation fidelity or adopt conservative regularization, which may cause policy collapse by discarding high-risk high-reward actions. We propose Sim2Act, a robust simulation-to-decision framework that addresses both simulator and policy robustness. First, we introduce an adversarial calibration mechanism that re-weights simulation errors in decision-critical state-action pairs to align surrogate fidelity with downstream decision impact. Second, we develop a group-relative perturbation strategy that stabilizes policy learning under simulator uncertainty without enforcing overly pessimistic constraints. Extensive experiments on multiple supply chain benchmarks demonstrate improved simulation robustness and more stable decision performance under structured and unstructured perturbations.

研究动机与目标

在数据嘈杂、偏差或不完整的高风险领域（如供应链）中，激发鲁棒的仿真到决策学习。
解决两个核心弱点：决策关键区域的仿真-行为错位以及不确定性下策略过于保守。
提出 Sim2Act，使仿真保真度与行动效用对齐，在扰动下稳定策略排序。
在多个供应链基准上展示鲁棒性和决策质量的提升。

提出的方法

引入对抗性仿真器校准，以行动条件权重重新加权预测误差，优先关注决策关键区域。
提出一个两人对抗极小极大化目标：校准器最大化突出高影响误差，仿真器使其最小化。
实现一个基于 LSTM 的代理仿真器，并附带输出行动条件重要性权重的校准器。
提出基于组相对扰动的策略：在每个状态周围采样潜在空间扰动，并在扰动组上训练策略，以保持相对行动效用。
定义一个组相对损失，结合组优势项和效用差距项以引导鲁棒策略学习。
使用交替优化来训练校准器和仿真器（极小极大）以及用组相对扰动训练决策者。

实验结果

研究问题

RQ1如何在不牺牲全局精度的前提下，具体在决策关键区域减少仿真误差？
RQ2如何防止策略把所有不确定性都视为威胁，从而放弃高风险高回报的行动？
RQ3将行动对齐的仿真器校准与组相对扰动结合，是否能在结构化和非结构化扰动下提升仿真和决策的鲁棒性？
RQ4在增强鲁棒性的同时，基本的仿真与决策性能是否得到保持或提升？
RQ5鲁棒性收益在不同的供应链基准上是否具有一致性？

主要发现

Sim2Act 在潜在结构化扰动和随机扰动下，对 DataCo、GlobalStore 和 OAS 的鲁棒性优于基线方法。
行动对齐的仿真器校准将改进集中到决策关键行动上，并提升最坏情况的仿真器可靠性。
组相对扰动在扰动组内稳定策略相对偏好，降低方差并防止策略崩溃。
Sim2Act 在增强鲁棒性的同时，保持或提升下游决策指标（利润和准时率）。
消融研究显示仿真校准和决策扰动两者都对鲁棒性有贡献，组合使用效果最好。
在扰动下的 CVaR@5% 仍然较高，表明 Sim2Act 对尾部风险控制更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。