QUICK REVIEW

[논문 리뷰] Continuous-Time Mean-Variance Portfolio Selection: A Reinforcement Learning Framework

Haoran Wang, Xun Yu Zhou|arXiv (Cornell University)|2019. 04. 25.

Reinforcement Learning in Robotics참고 문헌 51인용 수 28

한 줄 요약

이 논문은 엔트로피 정규화와 이완된 확률적 제어 과제로 문제를 재구성하여 연속시간 평균-분산 포트폴리오 선택을 위한 강화학습 프레임워크를 제안한다. 최적 정책이 시간에 따라 감쇠하는 가우시안 분포임을 증명하고, 정책 개선 기반의 강화학습 알고리즘을 개발하여 시뮬레이션에서 기준 방법들을 능가하며, 더 뛰어난 샤프 지수와 최적 성능 수렴을 보여준다.

ABSTRACT

We approach the continuous-time mean-variance (MV) portfolio selection with reinforcement learning (RL). The problem is to achieve the best tradeoff between exploration and exploitation, and is formulated as an entropy-regularized, relaxed stochastic control problem. We prove that the optimal feedback policy for this problem must be Gaussian, with time-decaying variance. We then establish connections between the entropy-regularized MV and the classical MV, including the solvability equivalence and the convergence as exploration weighting parameter decays to zero. Finally, we prove a policy improvement theorem, based on which we devise an implementable RL algorithm. We find that our algorithm outperforms both an adaptive control based method and a deep neural networks based algorithm by a large margin in our simulations.

연구 동기 및 목표

비선형성과 시간 비일관성으로 인해 연속시간 평균-분산 포트폴리오 선택에 강화학습을 적용하는 데 어려움이 존재하므로 이를 해결하고자 한다.
모델에 의존하지 않고 데이터 기반의 강화학습 프레임워크를 개발하여, 실무에서 주요 장벽이 되는 미지의 마켓 파라미터 직접 추정을 피하고자 한다.
엔트로피 정규화된 탐색적 MV 문제와 고전적 MV 문제 사이의 연결 고리를 구축하여, 해의 존재성 동치성과 탐색 감소 시 수렴성을 보장하고자 한다.
명시적인 함수 형태로 가치 함수와 제어 정책을 제공하는 증명 가능 정책 개선 정리에 기반한 구현 가능한 강화학습 알고리즘을 설계하고자 한다.
실험적으로 제안된 알고리즘이 정적 및 비정적 시장 환경에서 적응 제어 및 딥 뉴럴 네트워크 기반 방법을 모두 상회하여 위험 조정 수익률과 안정성 측면에서 뛰어난 성능을 보임을 입증하고자 한다.

제안 방법

연속시간 평균-분산 포트폴리오 선택 문제를 엔트로피 정규화된 이완된 확률적 제어 과제로 재구성하여 탐색과 이용의 균형을 이루도록 한다.
이완된 문제의 최적 피드백 정책이 시간에 따라 감쇠하는 분산을 가진 가우시안 분포임을 증명하여 명시적 정책 파arameterization을 가능하게 한다.
엔트로피 정규화된 탐색적 MV 문제와 고전적 MV 문제 사이의 해의 존재성 동치성을 확립하고, 탐색 파rameter λ → 0일 때 이전 문제의 해가 후자로 수렴함을 보여준다.
반복적인 정책 업데이트를 통해 목표 함수 값을 매 반복마다 단조적으로 향상시키는 정책 개선 정리를 유도한다.
이론적 최적 정책 구조를 기반으로 한 구현 가능한 강화학습 알고리즘을 설계하여 딥 뉴럴 네트워크와 같은 블랙박스 함수 근사기구를 피한다.
성능 향상을 위해 탐색을 점차 줄이는 감쇠 λ 과정(λ_k = λ₀(1 − exp(200(k−M)/M)))을 도입한다.

실험 결과

연구 질문

RQ1비선형성과 시간 비일관성으로 인해 연속시간 평균-분산 포트폴리오 선택에 강화학습을 효과적으로 적용할 수 있는가?
RQ2엔트로피 정규화된 MV 프레임워크에서 탐색과 이용을 균형 잡는 데 최적의 정책 구조는 무엇인가?
RQ3엔트로피 정규화된 탐색적 MV 문제와 고전적 MV 문제 사이의 해의 존재성과 수렴성 측면에서의 관계는 어떠한가?
RQ4MV 기반 강화학습을 위한 증명 가능한 정책 개선 정리를 도출할 수 있는가? 이를 통해 보장된 향상이 가능한 반복적 정책 최적화가 가능한가?
RQ5제안된 강화학습 알고리즘이 샤프 지수와 수렴성 측면에서 기존 방법—특히 적응 제어 및 딥 러닝 기반 기준 방법—을 능가하는가? 이는 정적 및 비정적 시장 환경 모두에서 성립하는가?

주요 결과

엔트로피 정규화된 탐색적 MV 문제의 최적 정책은 시간에 따라 감쇠하는 분산을 가진 가우시안 분포이며, 닫힌 형태로 표현 가능한 해석 가능한 정책 구조를 제공한다.
탐색적 MV 문제와 고전적 MV 문제 사이에 해의 존재성 동치성이 있으며, 탐색 파arameter λ → 0일 때 해가 고전적 MV 최적 정책으로 수렴함을 보였다.
감쇠 λ 스킴(λ₀ = 2)을 사용할 경우 제안된 알고리즘이 샤프 지수 3.243을 달성하였고, 일정한 λ를 사용할 경우 3.039에 그치어 뚜렷한 성능 향상을 보였다.
정적 및 비정적 시장 환경 모두에서 시뮬레이션을 통해 적응 제어 기반 방법과 딥 뉴럴 네트워크 기반 알고리즘을 크게 능가하는 성능을 보였다.
정책 개선 정리는 반복적인 업데이트를 통해 목표 함수를 단조롭게 향상시키며, 복잡한 함수 근사기구가 필요 없이 안정적이고 수렴하는 학습을 보장한다.
실제로 모델에 의존하지 않으며, 자산 가치 동역학의 선형-제곱형(LQ) 구조와 제곱형 목표 함수에 기반하여, 명시적인 파라미터 추정 없이 로그노말 및 비정적 가격 과정에도 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.