Skip to main content
QUICK REVIEW

[논문 리뷰] Probabilistic solution of relative entropy weighted control

Joris Bierkens, Hilbert J. Kappen|arXiv (Cornell University)|2012. 05. 31.
Stochastic processes and financial applications참고 문헌 12인용 수 3
한 줄 요약

이 논문은 변화 측도와 길리산프의 정리의 활용을 통해 상대 엔트로피 가중 확률적 제어 문제를 해결하기 위한 확률적 방법을 제시한다. 이를 통해 말리아비안 미분법을 이용해 최적 제어 과정을 명시적으로 계산할 수 있다. 동적 프ogramming을 초월하여 브라운 운동과 상대 엔트로피 페널티를 포함하는 문제에 대해 정확한 해를 제공하며, 확산 과정에 대해 선형 HJB 방정식과 연결된다.

ABSTRACT

We expand earlier results by Bou\'e and Dupuis where stochastic control problems with a particular cost structure, involving a relative entropy term, are shown to admit a solution by means of a change of measure technique. We provide methods of computing the corresponding optimal control process explicitly. Our results enables us to find solutions for optimal control problems to which the dynamic programming principle can not be applied. The argument is as follows. Minimization of the expectation of a random variable with respect to the underlying probability measure, penalized by relative entropy, may be solved exactly. In the case where the randomness is generated by a standard Brownian motion, this exact solution can be written as a Girsanov density. An explicit expression for the control process may be obtained in terms of the Malliavin derivative of the density process. The theory is applied to the problem of minimizing the maximum of a Brownian motion (penalized by the relative entropy). The link to a linear version of the Hamilton-Jacobi-Bellman equation is made for the case of diffusion processes.

연구 동기 및 목표

  • 동적 프로그래밍이 적용되지 않는 상황에서 상대 엔트로피 페널티가 포함된 제어 문제를 해결하기 위한 방법을 개발한다.
  • 측도 변화 기법을 사용하여 최적 제어 과정의 명시적 표현을 제공한다.
  • 확산 과정에 대해 선형 해밀토니안-자코비-벨만 방정식과의 연결을 제공한다.
  • 브라운 운동의 최대값을 상대 엔트로피 정규화와 함께 최소화하는 문제에 대해 적용하여 방법을 시연한다.
  • 밀리아비안 미분의 밀도 과정을 통해 제어를 계산하는 프레임워크를 수립한다.

제안 방법

  • 상대 엔트로피 페널티가 포함된 제어 문제를 해결 가능한 기댓값 최소화 문제로 변환하기 위해 측도 변화 기법을 사용한다.
  • 길리산프의 정리를 적용하여 최적의 측도 변화를 브라운 운동에 의해 구동되는 밀도 과정으로 표현한다.
  • 길리산프 밀도의 밀리아비안 미분을 이용해 최적 제어 과정을 명시적으로 구성한다.
  • 로그 밀도의 기울기로 제어를 표현함으로써 분석적 취급 가능성을 확보한다.
  • 확산 과정에 대해 선형 버전의 해밀토니안-자코비-벨만 방정식과의 연결을 수립한다.
  • 비마르코프 또는 비마르코프 유사 구조를 가진 설정에서 동적 프로그래밍의 필요성을 피하기 위해 확률 미분법 도구를 활용한다.

실험 결과

연구 질문

  • RQ1동적 프로그래밍이 실패할 경우 상대 엔트로피 가중 문제의 최적 제어를 어떻게 계산할 수 있는가?
  • RQ2기본 브라운 운동과 그 밀리아비안 미분으로 표현할 때 최적 제어 과정의 명시적 형태는 무엇인가?
  • RQ3확산 과정 설정에서 해법이 선형 HJB 방정식과 어떻게 관련되는가?
  • RQ4상대 엔트로피 페널티 하에서 브라운 운동의 최대값을 최소화하는 문제를 명시적으로 해결할 수 있는가?
  • RQ5길리산프 밀도는 최적 제어를 구성하는 데 어떤 역할을 하는가?

주요 결과

  • 최적 제어 과정은 길리산프 밀도의 밀리아비안 미분으로 명시적으로 표현되어 직접 계산이 가능하다.
  • 동적 프로그래밍에 의존하지 않고도 상대 엔트로피 페널티가 포함된 제어 문제에 대해 정확한 해를 제공한다.
  • 확산 과정의 경우, 해법 프레임워크는 선형 해밀토니안-자코비-벨만 방정식과 연결된다.
  • 비록 비마르코프적 특성을 지닌 문제이지만, 상대 엔트로피 정규화 하에서 브라운 운동의 최대값 최소화 문제를 성공적으로 해결한다.
  • 측도 변화 기법을 통해 제약 조건이 있는 최적화 문제를 다룰 수 있는 기댓값 최소화 문제로 변환할 수 있다.
  • 가치 함수가 비마르코프적 구조로 인해 표준 HJB 방정식을 만족하지 못하는 문제에도 이 방법이 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.