QUICK REVIEW

[논문 리뷰] Stochastic dynamic programming with non-linear discounting

Nicole Bäuerle, Anna Jaśkiewicz|arXiv (Cornell University)|2020. 11. 04.

Economic theories and models참고 문헌 32인용 수 8

한 줄 요약

이 논문은 비선형 할인 함수 δ를 사용하여 미래의 효용을 재귀적으로 집계하는 확률적 동적계획법 프레임워크를 개발한다. 벨만 방정식의 해 존재성과 유계 및 비유계 효용 설정에서 최적의 정적 정책 존재성을 증명하며, 일반화된 고정점 접근법을 통해 고전적 동적계획법을 비가산적 재귀적 효용 모델로 확장한다.

ABSTRACT

In this paper, we study a Markov decision process with a non-linear discount function and with a Borel state space. We define a recursive discounted utility, which resembles non-additive utility functions considered in a number of models in economics. Non-additivity here follows from non-linearity of the discount function. Our study is complementary to the work of Jaśkiewicz, Matkowski and Nowak (Math. Oper. Res. 38 (2013), 108-121), where also non-linear discounting is used in the stochastic setting, but the expectation of utilities aggregated on the space of all histories of the process is applied leading to a non-stationary dynamic programming model. Our aim is to prove that in the recursive discounted utility case the Bellman equation has a solution and there exists an optimal stationary policy for the problem in the infinite time horizon. Our approach includes two cases: $(a)$ when the one-stage utility is bounded on both sides by a weight function multiplied by some positive and negative constants, and $(b)$ when the one-stage utility is unbounded from below.

연구 동기 및 목표

비선형 할인을 고려한 확률적 동적계획법으로의 확장을 위해, 미래 효용이 비선형 함수 δ를 사용해 재귀적으로 집계되는 프레임워크를 개발한다.
무한 시간 마코프 결정과정에서 비선형 할인을 고려할 때, 벨만 방정식의 해 존재성을 확립한다.
한 단계 효용이 상하로 유계 또는 하방으로 비유계일 경우, 최적의 정적 정책 존재성을 증명한다.
클래식한 바나흐 수축 방법의 한계를 극복하기 위해 마츠코프스키(Matkowski)의 일반화된 고정점 정리를 사용한다.
확률적 제어에서 비가산적 할인을 갖는 재귀적 효용 모델에 대한 이론적 기초를 제공한다.

제안 방법

재귀적 효용 집계 구조를 사용한다: v_t = u_t + ∫δ(v_{t+1}) q(dx_{t+1}|x_t, π_t), 여기서 δ는 비선형 할인 함수이다.
최대 보상 연산자의 고정점 존재성을 증명하기 위해 일반화된 고정점 정리(마츠코프스키 [26])를 적용한다.
연속성, 단조성, 부분항등성 조건을 만족시키는 δ에 대한 조건(B2.1–B2.3)을 부과하고, 유계성 조건을 위해 가중함수 ω를 가정한다.
두 경우를 고려한다: (a) 한 단계 효용이 절댓값으로 ω에 유계; (b) ω에 의해 상향 유계이지만 하방으로 비유계.
비유계 케이스에서는 측정 가능 선택 정리와 단조 수열을 통한 가치 함수 근사 기법을 사용한다.
유계 케이스에서는 수치적 해법으로 정책 반복 및 정책 개선 알고리즘을 활용한다(섹션 6).

실험 결과

연구 질문

RQ1비선형 할인과 비유계 단계 효용을 갖는 마코프 결정과정에서, 벨만 방정식의 해가 존재하는가?
RQ2한 단계 효용이 하방으로 비유계일 경우, 비선형 할인 하에서 최적의 정적 정책을 보장할 수 있는가?
RQ3재귀적 비선형 할인은 이전 연구에서 사용된 기대값 우선 접근법과 어떻게 다를 수 있으며, 어떤 이점이 있는가?
RQ4할인 함수 δ와 가중함수 ω에 대해 어떤 조건이 성립할 경우 가치 함수가 잘 정의되고 측정 가능해지는가?
RQ5마츠코프스키의 일반화된 고정점 정리는 비선형 할인 동적계획 문제를 해결하는 데 적용 가능한가?

주요 결과

한 단계 효용이 가중함수 ω에 의해 상하로 유계일 경우, 비선형 할인 하에서 벨만 방정식은 해를 갖는다.
유계 케이스에서는 가치 함수가 최대 보상 연산자의 유일한 고정점이며, 벨만 방정식의 임의의 최대화자로부터 최적의 정적 정책을 도출할 수 있다.
하방으로 비유계인 케이스에서는 가치 함수가 연산자의 고정점이지만 유일성은 보장되지 않으며, 여전히 최대화자는 최적의 정책을 도출한다.
모델은 비가산적 재귀적 효용을 허용하여 행동경제학적 선호를 반영하며, 고전적 선형 할인을 일반화한다.
정책 반복 및 정책 개선과 같은 수치 알고리즘이 유계 효용 설정에서 적용 가능하다.
최적 성장, 재고관리 및 정지 문제에 대한 적용 사례가 제공되며, 집합 판매 정지 문제에서는 최적 전략이 임계값 이상의 첫 번째 제안을 수락하는 것으로 명시적으로 유도된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.