QUICK REVIEW

[論文レビュー] Process-based risk measures and risk-averse control of observable and partially observable discrete-time systems

Jingnan Fan|arXiv (Cornell University)|Jan 1, 2018

Risk and Portfolio Optimization被引用数 2

ひとこと要約

本稿では、制御された離散時間確率的過程に対するプロセスベースの動的リスク測度を導入し、確率的条件付き時間整合性を確立するとともに、状態関数上の静的法不変リスク測度と同等であることを示している。マルコフ決定過程（MDP）および部分的に観測可能なMDP（POMDP）の両方の動的計画法方程式を導出し、観測可能な状態関数における逐次的リスク評価を通じてリスク回避的制御を可能としている。

ABSTRACT

In this thesis, we develop theoretical foundations of the theory of dynamic risk measures for controlled stochastic processes, and we apply our theory to Markov decision processes (MDP) and partially observable Markov decision processes (POMDP). We consider a new class of dynamic risk measures for controlled discrete-time stochastic processes, which we call process-based. By introducing a new concept of stochastic conditional time consistency, we derive the structure of process-based risk measures enjoying this property. It is shown that such risk measures can be equivalently represented by a collection of static law-invariant risk measures on the space of functions of the state of the base process. The results are first specialized to Markov decision problems (MDP), in which we use process-based dynamic risk measures to evaluate control policies. We derive the refined structure of risk measures for this kind of problems, along with the associated dynamic programming equations. We then specialize our theory to partially observable Markov decision problems (POMDP). Compared to MDP, in POMDP we can only observe part of the state, and we need to infer the rest of the state conditional on our observations. We derive that the stochastically conditionally time-consistent dynamic risk measures can be represented by a sequence of law-invariant risk measures on the space of function of the observable part of the state. The corresponding dynamic programming equations are also derived. Finally, as an application to our theory on POMDP, we study a model for machine deterioration problem.

研究の動機と目的

制御された確率的過程における動的リスク測度の理論的基盤を構築すること。
逐次的意思決定におけるリスク測度のための重要な性質として、確率的条件付き時間整合性を確立すること。
プロセスベースのリスク測度を用いたMDPにおけるリスク回避的制御のための動的計画法方程式を導出すること。
部分的に観測可能な状態情報が得られる状況であるPOMDPへのフレームワークの拡張。
実用的関連性を示すために、機械の劣化モデルへの応用。

提案手法

制御された確率的過程の軌道上で定義される、新たなタイプの動的リスク測度であるプロセスベースのリスク測度を導入する。
確率的条件付き時間整合性を定義し、リスク測度に与える構造的影響を導出する。
確率的に条件付き時間整合性を満たすリスク測度が、状態空間関数上の静的法不変リスク測度の集合と同等であることを示す。
MDPにこのフレームワークを特化し、状態関数上で定義されたリスク測度を用いて、リスク回避的動的計画法方程式を導出する。
観測可能な状態関数上の法不変リスク測度の系列を用いて、POMDPに理論を適応する。
フレームワークを機械の劣化モデルに適用し、部分的観測下でのリスク回避的ポリシー設計の実例を提示する。

実験結果

リサーチクエスチョン

RQ1制御された確率的過程において、動的リスク測度をどのように構造化すれば、確率的条件付き時間整合性を保証できるか？
RQ2確率的に条件付き時間整合性を満たすプロセスベースのリスク測度の同等表現は何か？
RQ3プロセスベースのリスク測度は、マルコフ決定過程（MDP）における動的計画法をどのように再定式化するか？
RQ4部分的に観測可能なシステム（POMDP）において、プロセスベースのリスク測度を用いてどのようにリスク回避的制御を達成できるか？
RQ5観測可能な状態関数は、POMDPにおけるリスク測度の表現において果たす役割は何か？

主な発見

確率的に条件付き時間整合性を満たすプロセスベースのリスク測度は、状態空間関数上の静的法不変リスク測度の集合と同等である。
MDPにおいて、状態関数上で定義されたリスク測度を用いることで、リスク回避的動的計画法方程式が導出され、逐次的リスク評価が可能になる。
POMDPでは、観測可能な状態の関数上の法不変リスク測度の系列としてリスク測度が表現され、信念に基づく推論が反映される。
フレームワークにより、信念状態における動的計画法にリスク測度を組み込むことで、POMDPにおけるリスク回避的ポリシー設計が可能になる。
機械の劣化モデルへの応用により、部分的観測下における提案されたリスク回避的制御フレームワークの実用的有用性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。