[论文解读] Stochastic dynamic programming with non-linear discounting
本文提出一种具有非线性贴现的随机动态规划框架,其中未来效用通过非线性贴现函数 δ 递归聚合。在有界和无界效用设定下,证明了贝尔曼方程解的存在性及最优平稳策略的存在性,通过广义不动点方法将经典动态规划扩展至非可加递归效用模型。
In this paper, we study a Markov decision process with a non-linear discount function and with a Borel state space. We define a recursive discounted utility, which resembles non-additive utility functions considered in a number of models in economics. Non-additivity here follows from non-linearity of the discount function. Our study is complementary to the work of Jaśkiewicz, Matkowski and Nowak (Math. Oper. Res. 38 (2013), 108-121), where also non-linear discounting is used in the stochastic setting, but the expectation of utilities aggregated on the space of all histories of the process is applied leading to a non-stationary dynamic programming model. Our aim is to prove that in the recursive discounted utility case the Bellman equation has a solution and there exists an optimal stationary policy for the problem in the infinite time horizon. Our approach includes two cases: $(a)$ when the one-stage utility is bounded on both sides by a weight function multiplied by some positive and negative constants, and $(b)$ when the one-stage utility is unbounded from below.
研究动机与目标
- 将随机动态规划扩展至非线性贴现,其中未来效用通过非线性函数 δ 递归聚合。
- 在无限时域马尔可夫决策过程中,建立非线性贴现下贝尔曼方程解的存在性。
- 证明当单阶段效用有界或无下界时,最优平稳策略的存在性。
- 通过马特科夫斯基(Matkowski)提出的广义不动点定理,克服经典巴拿赫压缩映射方法的局限性。
- 为随机控制中具有非可加贴现的递归效用模型提供理论基础。
提出的方法
- 采用递归效用聚合结构:v_t = u_t + ∫δ(v_{t+1}) q(dx_{t+1}|x_t, π_t),其中 δ 为非线性贴现函数。
- 应用广义不动点定理(Matkowski [26])证明最大奖励算子不动点的存在性。
- 对 δ 施加条件(B2.1–B2.3),确保其连续性、单调性和次齐次性,并假设存在一个权函数 ω 以保证有界性。
- 考虑两种情形:(a) 单阶段效用在绝对值上被 ω 有界;(b) 被 ω 有上界但无下界。
- 在无界情形下,使用可测选择定理并借助值函数的单调序列逼近。
- 在有界情形下,采用策略迭代和策略改进算法进行数值求解(第6节)。
实验结果
研究问题
- RQ1在具有非线性贴现和无界阶段效用的马尔可夫决策过程中,贝尔曼方程是否存在解?
- RQ2当单阶段效用无下界时,能否保证在非线性贴现下存在最优平稳策略?
- RQ3递归非线性贴现与以往研究中采用的期望优先方法有何不同?其优势何在?
- RQ4在何种条件下,贴现函数 δ 和权函数 ω 能保证值函数有定义且可测?
- RQ5马特科夫斯基的广义不动点定理能否用于求解非线性贴现的动态规划问题?
主要发现
- 当单阶段效用被权函数 ω 上下有界时,贝尔曼方程在非线性贴现下存在解。
- 在有界情形下,值函数是最大奖励算子的唯一不动点,且贝尔曼方程中任意最大化者均产生最优平稳策略。
- 在无下界情形下,值函数是算子的不动点,尽管唯一性不保证;然而,最大化者仍能产生最优策略。
- 该模型允许非可加递归效用,反映行为经济学中的偏好,并推广了经典线性贴现。
- 在有界效用设定下,策略迭代和策略改进等数值算法适用。
- 提供了最优增长、库存控制和停止问题的应用,明确推导出房屋出售停止问题的解,其中最优策略为接受首个高于阈值的报价。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。