QUICK REVIEW

[論文レビュー] Distribution Estimation in Discounted MDPs via a Transformation.

Shuai Ma, Jia Yuan Yu|arXiv (Cornell University)|Apr 16, 2018

Formal Methods in Verification参考文献 24被引用数 2

ひとこと要約

本稿では、割引MDPにおける遷移ベースの報酬関数を状態ベースのものに変換する変換手法を提案し、累積割引報酬の分布を保存する。リスクセンシティブな目的（例：VaR）の正確な分布推定を可能にし、報酬が状態遷移に依存する場合でも正しい価値推定を保証する。特に、近似的に正規分布に従う報酬分布に応用可能である。

ABSTRACT

Although the general deterministic reward function in MDPs takes three arguments - current state, action, and next state; it is often simplified to a function of two arguments - current state and action. The former is called a transition-based reward function, whereas the latter is called a state-based reward function. When the objective is a function of the expected cumulative reward only, this simplification works perfectly. However, when the objective is risk-sensitive - e.g., depends on the reward distribution, this simplification leads to incorrect values of the objective. This paper studies the distribution estimation of the cumulative discounted reward in infinite-horizon MDPs with finite state and action spaces. First, by taking the Value-at-Risk (VaR) objective as an example, we illustrate and analyze the error from the above simplification on the reward distribution. Next, we propose a transformation for MDPs to preserve the reward distribution and convert transition-based reward functions to deterministic state-based reward functions. This transformation works whether the transition-based reward function is deterministic or stochastic. Lastly, we show how to estimate the reward distribution after applying the proposed transformation in different settings, provided that the distribution is approximately normal.

研究の動機と目的

リスクセンシティブなMDPにおいて、遷移ベース報酬（状態-行動-次状態）を状態ベース報酬（状態-行動）に単純化することによって生じる誤差を解消すること。
状態ベース報酬関数を用いる際、累積割引報酬の真の分布を保持すること。
特に、Value-at-Riskのようなリスクセンシティブな目的のための報酬分布推定を、変換後に正確に実現できること。
決定的および確率的両方の遷移ベース報酬関数に適用可能な一般化された変換を開発すること。
変換後の近似的正規性を仮定したもとで、報酬分布の推定フレームワークを提供すること。

提案手法

遷移ベース報酬を有する元のMDPを、累積割引報酬の分布を保存する同等の状態ベース報酬を有するMDPに変換する変換を提案する。
状態空間に遷移情報を符号化する状態拡張技術を用いて変換を定義し、報酬分布の忠実性を保証する。
決定的および確率的両方の遷移ベース報酬関数にこの変換を適用し、その一般性を示す。
変換後のMDPを用いて、近似的正規性を仮定して累積割引報酬の分布をモーメント法により推定する。
変換後のMDP構造を活用し、標準的な動的計画法または学習手法を用いてリスクセンシティブな指標（例：VaR）を計算する。
変換後のMDPにおける累積報酬の分布が元のMDPと一致することを示すことにより、手法の正しさを検証する。

実験結果

リサーチクエスチョン

RQ1遷移ベース報酬を状態ベース報酬に単純化することは、リスクセンシティブなMDPにおける累積割引報酬の分布にどのような歪みをもたらすか？
RQ2累積報酬の分布を変化させずに、遷移ベース報酬を状態ベース報酬に変換する変換を設計可能か？
RQ3提案手法は、決定的および確率的両方の遷移ベース報酬関数においても報酬分布を保持するか？
RQ4変換後、特に近似的正規性を仮定した場合に、報酬分布はどのように推定可能か？
RQ5変換は、無限ホライズンMDPにおけるValue-at-Riskのようなリスクセンシティブな目的の推定精度にどのような影響を及えるか？

主な発見

遷移ベース報酬を状態ベース報酬に単純化することは、特にリスクセンシティブな目的において、報酬分布推定に顕著な誤差をもたらす。
提案手法は、遷移ベース報酬から状態ベース報酬関数に変換する際、累積割引報酬の分布を正確に保持する。
変換は決定的および確率的両方の遷移ベース報酬関数に対して有効であり、分布の忠実性を保証する。
変換後、近似的正規性を仮定したもとで報酬分布を正確に推定可能であり、信頼性の高いリスクセンシティブ分析を可能にする。
変換後のMDPで累積報酬の真の分布を維持することで、Value-at-Riskや類似リスク指標の正しい推定が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。