QUICK REVIEW
[論文レビュー] Capacities, Measurable Selection and Dynamic Programming Part I: Abstract Framework
El Karoui Nicole, Xiaolu Tan|arXiv (Cornell University)|Oct 12, 2013
Economic theories and models参考文献 20被引用数 49
ひとこと要約
本稿は、容量理論と可測選択定理を用いて、連続時間における動的計画法の原則(DPP)の抽象的枠組みを構築する。射影容量を介した一般化された可測選択結果を確立し、その応用により、 càdlàg 細路の標準的空間上における確率的制御/停止問題における DPP を証明する。これにより、価値関数の上半連続性および時不変性が保証される。
ABSTRACT
We give a brief presentation of the capacity theory and show how it derives naturally a measurable selection theorem following the approach of Dellacherie (1972). Then we present the classical method to prove the dynamic programming of discrete time stochastic control problem, using measurable selection arguments. At last, we propose a continuous time extension, that is an abstract framework for the continuous time dynamic programming principle (DPP).
研究の動機と目的
- 射影容量を用いた容量理論を用いて、一般化された可測選択定理を導出すること。これは古典的結果を拡張するものである。
- 確率的制御および停止問題に対する連続時間における動的計画法の原則(DPP)の拡張を確立すること。
- càdlàg 細路の標準的空間上における時不変な非線形作用素の統一的枠組みを提供すること。
- 一般の確率的制御設定における価値関数の可測性および正則性を保証すること。
- 別紙において一般の確率的制御/停止問題を研究する基盤を築くこと。
提案手法
- チョケットの容量理論および積空間上の射影容量を用いて、可測選択を構築する。
- コンパクトな設定ではデビュー法を用いて選択を定義し、その後近似を用いて拡張する。
- 同型写像の議論を用いて、選択定理をボレル集合および解析的集合へ一般化する。
- càdlàg 細路の標準的空間上における停止時刻でインデックス付けられた非線形作用素の族を定義する。
- 正規条件付き確率測度(r.c.p.d.)を用いて測度を分解し、時不変性を検証する。
- ジャンコフ=フォン・ノイマンの解析的選択定理を適用して、DPPの証明における可測選択を保証する。
実験結果
リサーチクエスチョン
- RQ1容量理論を用いて、可測選択定理を体系的に導出する方法は何か?
- RQ2連続時間における確率的制御の動的計画法の原則が保証される抽象的条件は何か?
- RQ3選択および過去の情報に基づいて、非線形作用素の時不変性はどのように特徴付けられるか?
- RQ4一般の制御/停止問題において、価値関数がどのような正則性を備えるか?
- RQ5可測選択を用いて、離散時間のDPPを連続時間へ一般化する方法は何か?
主な発見
- 価値関数 $ V(t, \mathbf{x}) $ は上半連続的かつ普遍的可測であり、さまざまな確率測度に対して堅牢性を保証する。
- 動的計画法の原則は、任意の $ \widehat{\mathbb{F}} $-停止時刻 $ \hat{\tau} $ に対して、$ V(t,\mathbf{x}) = \mathbb{E}^{\widehat{\mathbb{P}}} \left[ \mathbf{1}_{\Theta_{\infty} \leq \hat{\tau}} \Phi + \mathbf{1}_{\Theta_{\infty} > \hat{\tau}} V(\hat{\tau}, [X]_{\hat{\tau}}) \right] $ の形で成立する。
- 確率測度の族 $ \widehat{\mathcal{P}}^{0}_{t,\mathbf{x}} $ は時条件付き貼り合わせに関して閉じており、時不変性を保証する。
- 可測選択定理は容量に基づく近似と同型写像を用いて導出され、古典的結果を一般化する。
- 本フレームワークは、離散時間のDPPおよびギャンブルハウスモデルを、標準的細路空間を用いて連続時間へ拡張する。
- 価値関数は時刻 $ t $ における過去の情報のみに依存する、すなわち $ V(t,\mathbf{x}) = V(t, [\mathbf{x}]_t) $ であることが確認され、細路に内在する依存性が裏付けられる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。