[论文解读] Process-based risk measures and risk-averse control of observable and partially observable discrete-time systems
本文为受控离散时间随机过程引入了基于过程的动态风险度量,建立了随机条件时间一致性,并证明其与状态函数上的静态分布不变风险度量等价。推导了马尔可夫决策过程(MDP)和部分可观察MDP(POMDP)的动态规划方程,实现了通过可观测状态函数的序列风险评估进行风险规避控制。
In this thesis, we develop theoretical foundations of the theory of dynamic risk measures for controlled stochastic processes, and we apply our theory to Markov decision processes (MDP) and partially observable Markov decision processes (POMDP). We consider a new class of dynamic risk measures for controlled discrete-time stochastic processes, which we call process-based. By introducing a new concept of stochastic conditional time consistency, we derive the structure of process-based risk measures enjoying this property. It is shown that such risk measures can be equivalently represented by a collection of static law-invariant risk measures on the space of functions of the state of the base process. The results are first specialized to Markov decision problems (MDP), in which we use process-based dynamic risk measures to evaluate control policies. We derive the refined structure of risk measures for this kind of problems, along with the associated dynamic programming equations. We then specialize our theory to partially observable Markov decision problems (POMDP). Compared to MDP, in POMDP we can only observe part of the state, and we need to infer the rest of the state conditional on our observations. We derive that the stochastically conditionally time-consistent dynamic risk measures can be represented by a sequence of law-invariant risk measures on the space of function of the observable part of the state. The corresponding dynamic programming equations are also derived. Finally, as an application to our theory on POMDP, we study a model for machine deterioration problem.
研究动机与目标
- 为受控随机过程中的动态风险度量建立理论基础。
- 将随机条件时间一致性确立为序列决策中风险度量的关键属性。
- 基于基于过程的风险度量,推导MDP中风险规避控制的动态规划方程。
- 将该框架扩展至POMDP,其中仅能获得部分状态信息。
- 将理论应用于机器退化模型,展示其实际相关性。
提出的方法
- 引入一类新型动态风险度量,称为基于过程的度量,定义于受控随机过程的轨迹之上。
- 定义随机条件时间一致性,并推导其对风险度量的结构影响。
- 证明随机条件时间一致的风险度量等价于状态函数上的静态分布不变风险度量集合。
- 将该框架专门应用于MDP,基于状态函数上的风险度量推导风险规避的动态规划方程。
- 通过在可观测状态函数上使用分布不变风险度量的序列,将理论适配至POMDP。
- 将该框架应用于机器退化模型,说明在部分可观察性下风险规避策略设计的实现。
实验结果
研究问题
- RQ1如何构建动态风险度量,以确保在受控随机过程中的随机条件时间一致性?
- RQ2随机条件时间一致的基于过程的风险度量的等价表示是什么?
- RQ3基于过程的风险度量如何重构马尔可夫决策过程(MDP)中的动态规划?
- RQ4如何在部分可观察系统(POMDP)中利用基于过程的风险度量实现风险规避控制?
- RQ5可观测状态函数在POMDP风险度量表示中起什么作用?
主要发现
- 随机条件时间一致的基于过程的风险度量等价于状态空间函数上的静态分布不变风险度量集合。
- 对于MDP,通过定义在状态函数上的风险度量推导出风险规避的动态规划方程,实现了序列风险评估。
- 在POMDP中,风险度量通过可观测状态函数上的分布不变风险度量序列表示,反映了基于信念的推理。
- 该框架通过将风险度量整合到信念状态动态规划中,实现了POMDP中的风险规避策略设计。
- 将该框架应用于机器退化模型,展示了在部分可观察性下所提出风险规避控制框架的实际效用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。