QUICK REVIEW

[论文解读] Constrained optimization under uncertainty for decision-making problems: Application to Real-Time Strategy games

Valentin Antuori, Florian Richoux|arXiv (Cornell University)|Jan 3, 2019

Constraint Satisfaction and Optimization参考文献 21被引用 5

一句话总结

本文提出了一种新颖的方法，在标准约束优化问题（COP）形式化框架下，通过整合决策理论中的不确定效用（RDU），解决不确定环境下的约束优化问题。该方法使常规约束求解器能够在不引入新形式化或新求解器的情况下处理不确定性，已在2018年µRTS AI竞赛中通过基于RDU的决策机制实现单位生产策略的获胜，适用于部分可观测环境。

ABSTRACT

Decision-making problems can be modeled as combinatorial optimization problems with Constraint Programming formalisms such as Constrained Optimization Problems. However, few Constraint Programming formalisms can deal with both optimization and uncertainty at the same time, and none of them are convenient to model problems we tackle in this paper. Here, we propose a way to deal with combinatorial optimization problems under uncertainty within the classical Constrained Optimization Problems formalism by injecting the Rank Dependent Utility from decision theory. We also propose a proof of concept of our method to show it is implementable and can solve concrete decision-making problems using a regular constraint solver, and propose a bot that won the partially observable track of the 2018 {\mu}RTS AI competition. Our result shows it is possible to handle uncertainty with regular Constraint Programming solvers, without having to define a new formalism neither to develop dedicated solvers. This brings new perspective to tackle uncertainty in Constraint Programming.

研究动机与目标

解决现有约束编程形式化中缺乏同时处理组合决策问题中的优化与不确定性的不足。
建模仅影响目标函数而不影响约束的单阶段决策问题，其中不确定性仅作用于目标函数。
通过嵌入如RDU等决策理论效用模型，使标准COP求解器能够处理不确定性。
通过在部分可观测的µRTS游戏环境中实现具有竞争力的AI智能体，展示其实际适用性。
证明基于RDU的优化在实时战略决策中优于期望效用和随机策略。

提出的方法

将决策理论中的不确定效用（RDU）框架适配至不确定环境下的COP解的排序。
将目标函数用作效用得分，并应用RDU对累积概率的加权方法对决策结果进行排序。
将决策问题建模为具有确定性约束的标准COP，同时使用经过RDU变换的目标函数。
采用乐观和悲观两种权重函数（φ）的RDU模型，以反映不同的风险偏好。
在约束求解器（GHOST）中实现该模型，以在“迷雾”环境下生成µRTS中的单位生产策略。
采用非自适应、单阶段决策模型，即在随机结果（敌方策略）未揭示前即做出决策。

实验结果

研究问题

RQ1是否可以扩展标准COP形式化，以在不引入新形式化或新求解器的情况下处理目标函数中的不确定性？
RQ2在部分可观测的即时战略游戏中，基于RDU的优化与期望效用和随机决策相比表现如何？
RQ3基于COP的RDU方法是否能在不确定环境下的实时战略AI中超越现有方法？
RQ4风险偏好（乐观与悲观φ）对短时程即时战略决策性能有何影响？
RQ5是否可行仅通过标准约束求解器和决策理论效用模型实现感知不确定性的优化？

主要发现

基于RDU的方法在2018年µRTS AI竞赛中，于部分可观测赛道中击败了期望效用和随机单位生产策略，获得冠军。
在小地图（8x8、12x12、16x16）上，采用悲观φ的RDU方法取得最高归一化得分（59.5），显著优于期望效用（56.5）和基线（52.5）。
在大地图（24x24、32x32、64x64）上，采用乐观φ的RDU方法取得最佳得分（81.5），显著优于基线（76.0）和期望效用（78.5）。
悲观RDU变体在小地图上表现更优，可能是因为在狭小空间中需对不利敌方单位组合立即做出反应。
该方法成功使标准COP求解器在不修改求解器或形式化的情况下处理不确定性，证明了其可行性和实用性。
结果证实，基于RDU的效用建模使约束求解器能够有效对不确定环境下的决策进行排序与选择，即使在复杂且部分可观测的环境中亦然。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。