Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic dynamic programming with non-linear discounting

Nicole Bäuerle, Anna Jaśkiewicz|arXiv (Cornell University)|Nov 4, 2020
Economic theories and models参考文献 32被引用数 8
ひとこと要約

本稿は、非線形割引関数 δ を用いて将来の効用を再帰的に集約する非線形割引を備えた確率的動的計画法の枠組みを構築する。無限時域のマルコフ意思決定過程において、ベルマン方程式の解の存在および最適定常方策の存在を、有界および無限大の効用設定下で証明し、一般化された不動点アプローチを用いて、古典的動的計画法を非加法的再帰的効用モデルへと拡張する。

ABSTRACT

In this paper, we study a Markov decision process with a non-linear discount function and with a Borel state space. We define a recursive discounted utility, which resembles non-additive utility functions considered in a number of models in economics. Non-additivity here follows from non-linearity of the discount function. Our study is complementary to the work of Jaśkiewicz, Matkowski and Nowak (Math. Oper. Res. 38 (2013), 108-121), where also non-linear discounting is used in the stochastic setting, but the expectation of utilities aggregated on the space of all histories of the process is applied leading to a non-stationary dynamic programming model. Our aim is to prove that in the recursive discounted utility case the Bellman equation has a solution and there exists an optimal stationary policy for the problem in the infinite time horizon. Our approach includes two cases: $(a)$ when the one-stage utility is bounded on both sides by a weight function multiplied by some positive and negative constants, and $(b)$ when the one-stage utility is unbounded from below.

研究の動機と目的

  • 非線形割引を用いた確率的動的計画法への拡張を図ること。ここで、将来の効用は非線形関数 δ を用いて再帰的に集約される。
  • 無限時域のマルコフ意思決定過程において、非線形割引を用いたベルマン方程式の解の存在を確立すること。
  • 一時期効用が有界または下限なしの場合に、最適定常方策の存在を証明すること。
  • 古典的バナッハ縮小法の限界を克服するため、Matkowski による一般化された不動点定理を用いること。
  • 確率的制御における非加法的割引を有する再帰的効用モデルの理論的基盤を提供すること。

提案手法

  • 再帰的効用集約構造を用いる:v_t = u_t + ∫δ(v_{t+1}) q(dx_{t+1}|x_t, π_t),ここで δ は非線形割引関数である。
  • 最大報酬作用素の不動点の存在を証明するために、一般化された不動点定理(Matkowski [26])を適用する。
  • 連続性、単調性、劣線形性を保証する δ に関する条件(B2.1–B2.3)を課し、有界性を保証する重み関数 ω を仮定する。
  • 2つのケースを検討する:(a) 一時期効用が絶対値で ω によって有界;(b) ω によって上界があるが下限がない。
  • 有界でない場合に、可測選択定理と単調な価値関数列による近似を用いる。
  • 有界ケースでは、数値的解法として方策反復および方策改善アルゴリズムを用いる(第6節)。

実験結果

リサーチクエスチョン

  • RQ1非線形割引と無限大の一時期効用を有するマルコフ意思決定過程において、ベルマン方程式の解は存在するか?
  • RQ2一時期効用が下限なしの場合に、非線形割引のもとで最適定常方策を保証できるか?
  • RQ3再帰的非線形割引は、先行研究で用いられる期待値第一の手法とどのように異なるのか?また、どのような利点を有するか?
  • RQ4割引関数 δ および重み関数 ω がどのような条件下で、価値関数が適切に定義され、可測となるか?
  • RQ5Matkowski の一般化された不動点定理は、非線形割引付き動的計画問題を解くために適用可能か?

主な発見

  • 一時期効用が重み関数 ω によって上下限で有界である場合、非線形割引のもとでベルマン方程式は解を有する。
  • 有界ケースでは、価値関数は最大報酬作用素の唯一の不動点であり、ベルマン方程式における任意の最大化器は最適定常方策を導く。
  • 下限なしのケースでは、価値関数は作用素の不動点ではあるが、一意性は保証されない。しかし、最大化器は依然として最適方策を導く。
  • 本モデルは非加法的再帰的効用を許容し、行動経済学的好みを反映しており、古典的線形割引を一般化する。
  • 方策反復および方策改善アルゴリズムは、有界効用設定において適用可能である。
  • 最適成長、在庫管理、停止問題への応用が提示され、住宅売却停止問題において明示的な解が得られており、最適戦略は閾値を超える最初のオファーを受け入れることである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。