QUICK REVIEW

[论文解读] Mean-Variance Optimization in Markov Decision Processes

Shie Mannor, John N. Tsitsiklis|arXiv (Cornell University)|Apr 29, 2011

Reinforcement Learning in Robotics参考文献 19被引用 44

一句话总结

本文研究了有限时域马尔可夫决策过程（MDPs）中的均值-方差优化，表明在一般情况下，计算满足均值-方差约束的最优策略是NP难或强NP难的。本文为约束型和多目标形式化提出了伪多项式时间的精确与近似算法，同时通过复杂性结果建立了可计算性的理论极限。

ABSTRACT

We consider finite horizon Markov decision processes under performance measures that involve both the mean and the variance of the cumulative reward. We show that either randomized or history-based policies can improve performance. We prove that the complexity of computing a policy that maximizes the mean reward under a variance constraint is NP-hard for some cases, and strongly NP-hard for others. We finally offer pseudopolynomial exact and approximation algorithms.

研究动机与目标

分析有限时域MDPs中均值-方差优化的计算复杂性，其中同时考虑期望回报与回报方差。
研究允许随机化或历史依赖性的策略类别是否能优于确定性或马尔可夫性策略。
确定在方差约束下优化期望回报，或反之，计算此类策略的可计算性。
为均值-方差MDPs开发伪多项式时间的精确与近似算法。
通过NP难性和强NP完全性结果，探索高效计算的理论极限。

提出的方法

使用多准则与约束型MDP框架，联合优化累积回报的均值与方差。
应用状态扩展技术以建模回报的二阶矩，从而支持线性规划方法的使用。
采用参数化方法通过固定一个目标（如均值）并优化另一个目标（如方差）来求解均值-方差问题，使用拉格朗日松弛框架。
基于奖励空间上的动态规划，开发伪多项式时间算法，利用有理奖励的有界性。
通过从已知NP完全问题（包括3-Partition和Knapsack）的归约，证明NP难性。
分析包括历史依赖、随机化与马尔可夫性策略在内的策略类别，以比较性能与复杂性。

实验结果

研究问题

RQ1计算在方差约束下最大化期望回报的策略是否为NP难或强NP难？
RQ2能否为均值-方差MDPs构造伪多项式时间的精确或近似算法？
RQ3在均值-方差优化中，随机化或基于历史的策略是否严格优于马尔可夫性或确定性策略？
RQ4是否存在多项式或伪多项式时间算法，能在统一误差界内计算均值-方差权衡的最优值？
RQ5能否高效计算最小或最大可能的方差，以及何种策略类型可实现这些极值？

主要发现

MDPs中的均值-方差优化在一般情况下为NP难，且在某些MDP参数化下为强NP难。
当奖励为整数时，计算在方差约束下最大化期望回报的策略问题为强NP难。
在有理奖励有界假设下，约束型与多目标均值-方差问题存在伪多项式时间的精确与近似算法。
最小方差总是由确定性策略实现，而最大方差通常由随机化策略实现。
对于整数奖励，方差最大化问题可简化为在多面体上的二次规划，可在伪多项式时间内求解。
结果可推广至无限时域折扣MDPs，由于尾部时域影响递减，近似算法可相应调整。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。