[논문 리뷰] Capacities, Measurable Selection and Dynamic Programming Part II: Application in Stochastic Control Problems
이 논문은 마틴게일 문제 프레임워크 내에서 가측 선택 기법을 사용하여 일반적인 확률적 제어 및 정지 문제에 대한 동적 프ogram밍 원리(DPP)를 수립한다. 약한, 강한, 느슨한 공식화 방식 하에서 제어/정지 확산 과정에 대해 DPP를 증명하고, 최적 제어의 존재성 또는 유일성 조건 없이 이러한 공식화 방식 간의 가치 함수의 동치성과 안정성을 보여준다.
We provide an overview on how to use the measurable selection techniques to derive the dynamic programming principle for a general stochastic optimal control/stopping problem. By considering its martingale problem formulation on the canonical space of paths, one can check the required measurability conditions. This covers in particular the most classical controlled/stopped diffusion processes problems. Further, we study the approximation property of the optimal control problems by piecewise constant control problems. As a byproduct, we obtain an equivalence result of the strong, weak and relaxed formulations of the controlled/stopped diffusion processes problem.
연구 동기 및 목표
- 연속 시간 확률적 제어/정지 문제에서 동적 프로그래밍 원리(DPP)를 유도하기 위한 통합적 프레임워크를 제공하는 것.
- 연속 시간 제어에서의 가측성 기술적 과제를 마틴게일 문제 공식화와 조건부 균일 분포를 활용하여 다루는 것.
- 제어/정지 확산 과정의 약한, 강한, 느슨한 공식화 간 가치 함수의 동치성을 확립하는 것.
- 조각별로 일정한 제어 문제로의 근사에 의한 제어 문제의 안정성을 증명하고 가치 함수의 수렴을 보장하는 것.
- 정규성 조건이나 최적 제어의 존재를 가정하지 않은 일반적인 제어/정지 마틴게일 문제에 DPP를 확장하는 것.
제안 방법
- 제어 행동을 일반적이고 탄력적인 프레임워크로 허용하는 마틴게일 문제를 통한 확률적 제어 문제의 공식화.
- 연속 시간 경로 공간에서 제어 선택의 가측성을 다루기 위해 가측 선택 기법의 사용.
- i.i.d. 구간 [0,1]^n 내 균일 랜덤 변수에서 조건부 분포를 이용해 적응 제어 과정을 구성하기 위해 정규 조건부 분포(r.c.d.)의 활용.
- 조각별 일정한 제어 문제의 수열을 구성하고, 역누적분포함수를 이용해 원래 문제로의 안정적 수렴을 증명하는 것.
- 최적성에 대한 사전 지식 없이 볼록성 해를 유도하고 DPP를 검증하기 위해 확률적 페론 방법 프레임워크의 적용.
- 일반성과 다양한 공식화 간의 강건성을 보장하기 위해 연속 경로의 표준 공간과 법 기반 제어 표현의 사용.
실험 결과
연구 질문
- RQ1가역성 또는 가치 함수의 연속성/하향 연속성을 가정하지 않고, 일반적인 연속 시간 확률적 제어 및 정지 문제에 대해 동적 프로그래밍 원리(DPP)를 엄밀히 유도할 수 있는 방법은 무엇인가?
- RQ2특히 제어된 확산 과정의 맥락에서, 연속 경로 공간에서 제어 선택의 가측성은 어떤 조건에서 보장되는가?
- RQ3일반 조건 하에서 제어/정지 확산 과정의 약한, 강한, 느슨한 공식화 간 가치 함수는 동치인가?
- RQ4조각별 일정한 제어 문제로의 근사화에 의한 원래 제어 문제의 가치 함수는 안정적인가?
- RQ5최적 제어 규칙의 존재성 또는 유일성을 요구하지 않고도 DPP를 수립할 수 있는가?
주요 결과
- 가장 일반적인 제어/정지 마틴게일 문제에 대해 가치 함수의 연속성 또는 하향 연속성을 가정하지 않고도, 가측 선택 기법을 사용하여 DPP가 성립함을 보였다.
- 약간의 정규성 조건 하에서 제어/정지 확산 과정의 약한, 강한, 느슨한 공식화 간 가치 함수는 동치임을 입증하였다.
- 조각별 일정한 제어 근사 문제의 수렴은 원래 문제로의 안정적 수렴을 보이며, 근사 문제의 가치 함수는 원래 문제의 가치 함수로 수렴한다.
- 최적 제어나 정지 규칙의 존재를 요구하지 않고, 가측 선택과 정규 조건부 분포를 기반으로 DPP가 수립됨을 보였다.
- 확률적 페론 방법을 통해 볼록성 해를 도출할 수 있으며, 이에 따라 DPP가 결과적으로 도출됨을 보였다.
- 조건부 분포의 역누적분포함수를 통한 적응 제어 구성은 표준 경로 공간 설정에서 DPP의 타당성을 보장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.