Skip to main content
QUICK REVIEW

[논문 리뷰] Stochastic dynamic programming with non-linear discounting

Nicole Bäuerle, Anna Jaśkiewicz|arXiv (Cornell University)|2020. 11. 04.
Economic theories and models참고 문헌 32인용 수 8
한 줄 요약

이 논문은 비선형 할인 함수 δ를 사용하여 미래의 효용을 재귀적으로 집계하는 확률적 동적계획법 프레임워크를 개발한다. 벨만 방정식의 해 존재성과 유계 및 비유계 효용 설정에서 최적의 정적 정책 존재성을 증명하며, 일반화된 고정점 접근법을 통해 고전적 동적계획법을 비가산적 재귀적 효용 모델로 확장한다.

ABSTRACT

In this paper, we study a Markov decision process with a non-linear discount function and with a Borel state space. We define a recursive discounted utility, which resembles non-additive utility functions considered in a number of models in economics. Non-additivity here follows from non-linearity of the discount function. Our study is complementary to the work of Jaśkiewicz, Matkowski and Nowak (Math. Oper. Res. 38 (2013), 108-121), where also non-linear discounting is used in the stochastic setting, but the expectation of utilities aggregated on the space of all histories of the process is applied leading to a non-stationary dynamic programming model. Our aim is to prove that in the recursive discounted utility case the Bellman equation has a solution and there exists an optimal stationary policy for the problem in the infinite time horizon. Our approach includes two cases: $(a)$ when the one-stage utility is bounded on both sides by a weight function multiplied by some positive and negative constants, and $(b)$ when the one-stage utility is unbounded from below.

연구 동기 및 목표

  • 비선형 할인을 고려한 확률적 동적계획법으로의 확장을 위해, 미래 효용이 비선형 함수 δ를 사용해 재귀적으로 집계되는 프레임워크를 개발한다.
  • 무한 시간 마코프 결정과정에서 비선형 할인을 고려할 때, 벨만 방정식의 해 존재성을 확립한다.
  • 한 단계 효용이 상하로 유계 또는 하방으로 비유계일 경우, 최적의 정적 정책 존재성을 증명한다.
  • 클래식한 바나흐 수축 방법의 한계를 극복하기 위해 마츠코프스키(Matkowski)의 일반화된 고정점 정리를 사용한다.
  • 확률적 제어에서 비가산적 할인을 갖는 재귀적 효용 모델에 대한 이론적 기초를 제공한다.

제안 방법

  • 재귀적 효용 집계 구조를 사용한다: v_t = u_t + ∫δ(v_{t+1}) q(dx_{t+1}|x_t, π_t), 여기서 δ는 비선형 할인 함수이다.
  • 최대 보상 연산자의 고정점 존재성을 증명하기 위해 일반화된 고정점 정리(마츠코프스키 [26])를 적용한다.
  • 연속성, 단조성, 부분항등성 조건을 만족시키는 δ에 대한 조건(B2.1–B2.3)을 부과하고, 유계성 조건을 위해 가중함수 ω를 가정한다.
  • 두 경우를 고려한다: (a) 한 단계 효용이 절댓값으로 ω에 유계; (b) ω에 의해 상향 유계이지만 하방으로 비유계.
  • 비유계 케이스에서는 측정 가능 선택 정리와 단조 수열을 통한 가치 함수 근사 기법을 사용한다.
  • 유계 케이스에서는 수치적 해법으로 정책 반복 및 정책 개선 알고리즘을 활용한다(섹션 6).

실험 결과

연구 질문

  • RQ1비선형 할인과 비유계 단계 효용을 갖는 마코프 결정과정에서, 벨만 방정식의 해가 존재하는가?
  • RQ2한 단계 효용이 하방으로 비유계일 경우, 비선형 할인 하에서 최적의 정적 정책을 보장할 수 있는가?
  • RQ3재귀적 비선형 할인은 이전 연구에서 사용된 기대값 우선 접근법과 어떻게 다를 수 있으며, 어떤 이점이 있는가?
  • RQ4할인 함수 δ와 가중함수 ω에 대해 어떤 조건이 성립할 경우 가치 함수가 잘 정의되고 측정 가능해지는가?
  • RQ5마츠코프스키의 일반화된 고정점 정리는 비선형 할인 동적계획 문제를 해결하는 데 적용 가능한가?

주요 결과

  • 한 단계 효용이 가중함수 ω에 의해 상하로 유계일 경우, 비선형 할인 하에서 벨만 방정식은 해를 갖는다.
  • 유계 케이스에서는 가치 함수가 최대 보상 연산자의 유일한 고정점이며, 벨만 방정식의 임의의 최대화자로부터 최적의 정적 정책을 도출할 수 있다.
  • 하방으로 비유계인 케이스에서는 가치 함수가 연산자의 고정점이지만 유일성은 보장되지 않으며, 여전히 최대화자는 최적의 정책을 도출한다.
  • 모델은 비가산적 재귀적 효용을 허용하여 행동경제학적 선호를 반영하며, 고전적 선형 할인을 일반화한다.
  • 정책 반복 및 정책 개선과 같은 수치 알고리즘이 유계 효용 설정에서 적용 가능하다.
  • 최적 성장, 재고관리 및 정지 문제에 대한 적용 사례가 제공되며, 집합 판매 정지 문제에서는 최적 전략이 임계값 이상의 첫 번째 제안을 수락하는 것으로 명시적으로 유도된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.