[論文レビュー] Capacities, Measurable Selection and Dynamic Programming Part II: Application in Stochastic Control Problems
本稿は、マーティングゲール問題の枠組み内で可測選択技術を用いて、一般の確率的制御および停止問題における動的計画法の原則(DPP)を確立する。弱い、強い、および緩められた定式化の下で、制御付き/停止付き拡散過程におけるDPPを証明し、最適制御の存在や一意性を仮定しない条件下でも、これらの定式化間での価値関数の同値性と安定性を示す。
We provide an overview on how to use the measurable selection techniques to derive the dynamic programming principle for a general stochastic optimal control/stopping problem. By considering its martingale problem formulation on the canonical space of paths, one can check the required measurability conditions. This covers in particular the most classical controlled/stopped diffusion processes problems. Further, we study the approximation property of the optimal control problems by piecewise constant control problems. As a byproduct, we obtain an equivalence result of the strong, weak and relaxed formulations of the controlled/stopped diffusion processes problem.
研究の動機と目的
- 連続時間の確率的制御/停止問題における動的計画法の原則(DPP)を導出する統一的枠組みを提供すること。
- 連続時間制御における可測性の技術的課題を、マーティングゲール問題の定式化と正規条件付き分布を活用することで解決すること。
- 制御付き/停止付き拡散過程の弱い、強い、および緩められた定式化の間での価値関数の同値性を確立すること。
- 区分的定数制御問題による近似において、制御問題の安定性を証明し、価値関数の収束を保証すること。
- 正規性や最適制御の存在を仮定しない一般の制御付き/停止付きマーティングゲール問題へDPPを拡張すること。
提案手法
- 制御行動の一般性と柔軟性を確保するため、確率的制御問題をマーティングゲール問題として定式化する。
- 連続時間の経路空間上での制御選択の可測性を扱うために、可測選択技術を用いる。
- i.i.d. な[0,1]^n 上の一様乱数から、正規条件付き分布(r.c.d.)を用いて適応的制御過程を構成する。
- 区分的定数制御問題の列を構築し、逆分布関数を用いて元の問題への安定収束を証明する。
- ストークス・ペロン法の枠組みを適用し、最適性に関する事前知識なしに、粘性解を導出し、DPPを検証する。
- 連続経路の標準的空間と法則に基づく制御表現を用いることで、あらゆる定式化に一般性と頑健性を保証する。
実験結果
リサーチクエスチョン
- RQ1価値関数の連続性や下半連続性を仮定しない一般の連続時間確率的制御および停止問題において、動的計画法の原則(DPP)をどのように厳密に導出できるか。
- RQ2特に制御付き拡散過程の文脈において、連続経路空間上での制御選択の可測性を保証する条件は何か。
- RQ3弱い、強い、および緩められた定式化の下での制御付き/停止付き拡散過程の価値関数は、一般の条件下で同値であるか。
- RQ4区分的定数制御問題による近似において、元の制御問題の価値関数は安定するか。
- RQ5最適制御則の存在や一意性を仮定しない条件下で、DPPを確立できるか。
主な発見
- 可測選択を用いることで、価値関数の連続性や下半連続性を仮定しない一般クラスの制御付き/停止付きマーティングゲール問題においてDPPが成立する。
- やや弱い正則性条件の下で、制御付き/停止付き拡散過程の弱い、強い、および緩められた定式化の価値関数は同値である。
- 区分的定数制御近似は元の問題に安定して収束し、近似問題の価値関数は元の問題の価値関数に収束する。
- 最適制御や停止則の存在を仮定しないでDPPを確立し、代わりに可測選択と正規条件付き分布に依存する。
- ストークス・ペロン法を用いることで、粘性解が導出可能であり、DPPはその結果として得られる。
- 条件付き分布の逆分布関数を用いた適応的制御の構成により、標準的経路空間設定下でのDPPの妥当性が保証される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。