[논문 리뷰] Reinforcement Learning for Dividend Optimization in Partially Observed Regime-Switching Diffusion Model
이 논문은 부분 정보에서의 최적 배당 지급을 위한 연속시간 강화학습 접근법을 레짐 스위칭 확산 모형에서 개발하고, 가치 함수의 반-해석적 구조와 믿음 상태 필터링을 이용한 액터-크리틱 알고리즘을 도출한다.
This paper studies the optimal dividend problem with a bounded payout rate in a partially observed regime-switching diffusion model, where, in practice, the market regime is unobserved and key model parameters are unknown. To address this partial-information setting, we propose a continuous-time reinforcement learning (RL) approach within an exploratory (entropy-regularized) stochastic control framework for discounted dividends under regime switching. The associated exploratory Hamilton-Jacobi-Bellman (HJB) system admits semi-analytical characterizations of the value function and the optimal exploratory dividend policy, determined by two unknown functions solving two ordinary differential equations (ODEs) together with positive real roots of the induced quadratic equations. Exploiting this structure, we introduce parametric families for both the value function and the policy, using low-degree polynomial approximations to the ODE solutions. We then develop an actor-critic RL algorithm to learn the optimal exploratory policy through interactions with the market environment: it performs belief-state filtering from observed data and iterates policy evaluation and policy improvement online to refine the policy. Numerical experiments demonstrate strong out-of-sample performance of the learned dividend policies.
연구 동기 및 목표
- 레짐 스위칭 설정에서의 규제 제약과 모델 불확실성 하에서의 최적 배당 지급을 모티브로 삼는다.
- 시장 레짐이 관측되지 않고 모델 매개변수가 알려지지 않은 부분 정보 배당 문제를 형식화한다.
- 최적 배당 정책을 학습하기 위한 탐색적(엔트로피-정규화된) 확률 제어 프레임워크를 개발한다.
- 알고리즘 설계를 안내하기 위한 가치 함수와 정책의 반(半)해석적 특성을 제시한다.
- 학습된 정책의 성능을 샘플 외 검증을 포함한 수치 실험으로 입증한다.
제안 방법
- 미해석된 레짐을 가진 잉여금의 레짐-스위칭 확산을 모델링하고 지급 속도는 경계값으로 설정한다.
- Wonham 필터를 이용하여 부분 정보 문제를 신념 상태 완전정보 문제로 변환하는 분리 원리를 적용한다.
- 엔트로피-정규화된 탐색적 제어 프레임워크를 채택하고 탐색적 HJB 방정식을 도출한다.
- 두 개의 ODE와 이차근을 통해 가치 함수와 최적 탐색적 배당 정책의 반해석적 표현을 얻는다.
- 최적의 탐색적 정책을 잔류 Gibbs 분포로써 잔여금 수준과 온도 매개변수에 의존하도록 특징지운다.
- 신념 상태 필터링을 이용하고 정책 평가와 개선을 번갈아 수행하는 액터-크리틱 RL 알고리즘을 개발한다.
실험 결과
연구 질문
- RQ1시장 레짐이 직접 관찰되지 않을 때 배당 payments를 최적으로 통제하는 방법은 무엇인가?
- RQ2탐색적(엔트로피-정규화된) RL 프레임워크가 레짐 스위칭 및 부분 정보 하에서 강건한 정책을 산출할 수 있는가?
- RQ3이 설정에서 가치 함수와 최적 정책의 반-해석적 구조는 무엇인가?
- RQ4배당 최적화를 위한 연속시간 RL 알고리즘에 신념 상태 필터링을 어떻게 통합할 수 있는가?
- RQ5학습된 정책은 벤치마크에 비해 샘플 밖 성능이 우수한가?
주요 결과
- 탐색적 HJB 시스템은 두 개의 미지 함수가 두 개의 ODE와 이차방정식을 풀어가는 가치 함수와 최적 정책의 반해석적 기술을 제시한다.
- 최적의 탐색적 배당 정책은 잘려진 Gibbs 형태를 취하고 잔여금 수준과 온도 매개변수에 적응한다.
- 신념 상태(Wonham) 필터링은 미지의 레짐에 조건부로 적용되어 문제를 학습용으로 완전정보 제어 문제로 전환한다.
- 정책 평가와 가치 추정치를 온라인으로 업데이트하는 액터-크리틱 RL 알고리즘은 샘플 밖 성능이 강하고 경로 간 분산이 감소한다.
- 수치 실험은 학습된 정책이 학습 데이터 외에서도 성능이 좋고 평균 추정치에서 유한 차분 벤치마크와 일치함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.