[논문 리뷰] Process-based risk measures and risk-averse control of observable and partially observable discrete-time systems
이 논문은 제어된 이산시간 확률과정에 대한 프로세스 기반 동적 위험 측도를 제안하며, 확률적 조건부 시간 일관성(conditional time consistency)을 확립하고, 상태 함수 위에서 정적 법 불변 위험 측도와의 등가성을 보여준다. 이는 마르코프 결정 과정(MDP)과 부분 관측 가능 마르코프 결정 과정(POMDP)에 대해 동적 프로그래밍 방정식을 유도하여, 관측 가능한 상태 함수 위에서 순차적 위험 평가를 통해 위험 회피적 제어를 가능하게 한다.
In this thesis, we develop theoretical foundations of the theory of dynamic risk measures for controlled stochastic processes, and we apply our theory to Markov decision processes (MDP) and partially observable Markov decision processes (POMDP). We consider a new class of dynamic risk measures for controlled discrete-time stochastic processes, which we call process-based. By introducing a new concept of stochastic conditional time consistency, we derive the structure of process-based risk measures enjoying this property. It is shown that such risk measures can be equivalently represented by a collection of static law-invariant risk measures on the space of functions of the state of the base process. The results are first specialized to Markov decision problems (MDP), in which we use process-based dynamic risk measures to evaluate control policies. We derive the refined structure of risk measures for this kind of problems, along with the associated dynamic programming equations. We then specialize our theory to partially observable Markov decision problems (POMDP). Compared to MDP, in POMDP we can only observe part of the state, and we need to infer the rest of the state conditional on our observations. We derive that the stochastically conditionally time-consistent dynamic risk measures can be represented by a sequence of law-invariant risk measures on the space of function of the observable part of the state. The corresponding dynamic programming equations are also derived. Finally, as an application to our theory on POMDP, we study a model for machine deterioration problem.
연구 동기 및 목표
- 제어된 확률과정에서의 동적 위험 측도에 대한 이론적 기반을 마련하는 것.
- 순차적 의사결정에서 위험 측도의 핵심 성질로서 확률적 조건부 시간 일관성을 확립하는 것.
- 프로세스 기반 위험 측도를 사용하여 MDP에서 위험 회피적 동적 프로그래밍 방정식을 유도하는 것.
- 부분 관측 가능 상태 정보가 존재하는 경우에 해당 프레임워크를 POMDP로 확장하는 것.
- 실제 적용 가능성을 입증하기 위해 기계 고장 모델에 이론을 적용하는 것.
제안 방법
- 제어된 확률과정의 궤적 위에서 정의된 새로운 종류의 동적 위험 측도인 프로세스 기반 위험 측도를 도입하는 것.
- 확률적 조건부 시간 일관성을 정의하고, 이에 따른 위험 측도의 구조적 함의를 도출하는 것.
- 확률적으로 조건부 시간 일관성을 만족하는 위험 측도가 상태 공간의 함수 위에서 정적 법 불변 위험 측도의 집합과 등가임을 보이는 것.
- MDP에 프레임워크를 특수화하여 상태 함수 위에서 정의된 위험 측도를 기반으로 한 위험 회피적 동적 프로그래밍 방정식을 도출하는 것.
- 관측 가능한 상태 함수 위에서의 법 불변 위험 측도의 시퀀스를 통해 POMDP에 이론을 적용하는 것.
- 실제 기계 고장 모델에 이 프레임워크를 적용하여, 부분 관측 조건 하에서의 위험 회피 정책 설계의 실용성을 설명하는 것.
실험 결과
연구 질문
- RQ1제어된 확률과정에서 동적 위험 측도가 어떻게 구성되어야 확률적 조건부 시간 일관성을 확보할 수 있는가?
- RQ2확률적으로 조건부 시간 일관성을 만족하는 프로세스 기반 위험 측도의 등가 표현은 무엇인가?
- RQ3프로세스 기반 위험 측도는 마르코프 결정 과정(MDP)의 동적 프로그래밍을 어떻게 재구성하는가?
- RQ4부분 관측 가능 시스템(POMDP)에서 프로세스 기반 위험 측도를 사용하여 위험 회피적 제어를 어떻게 달성할 수 있는가?
- RQ5관측 가능한 상태 함수는 POMDP의 위험 측도 표현에서 어떤 역할을 하는가?
주요 결과
- 확률적으로 조건부 시간 일관성을 만족하는 프로세스 기반 위험 측도는 상태 공간의 함수 위에서 정적 법 불변 위험 측도의 집합과 등가이다.
- MDP의 경우, 상태 함수 위에서 정의된 위험 측도를 통해 순차적 위험 평가가 가능한 위험 회피적 동적 프로그래밍 방정식이 도출된다.
- POMDP의 경우, 관측 가능한 상태의 함수 위에서의 법 불변 위험 측도의 시퀀스로 위험 측도가 표현되며, 이는 믿음 기반 추론을 반영한다.
- 이 프레임워크를 통해 믿음 상태 동적 프로그래밍에 위험 측도를 통합함으로써 POMDP에서 위험 회피 정책 설계가 가능해진다.
- 기계 고장 모델에 대한 적용을 통해, 부분 관측 조건 하에서도 제안된 위험 회피 제어 프레임워크의 실용성이 입증된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.