QUICK REVIEW

[논문 리뷰] Online Risk-Averse Planning in POMDPs Using Iterated CVaR Value Function

Yaacov Pariente, Vadim Indelman|arXiv (Cornell University)|2026. 01. 28.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

본 논문은 Iterated CVaR(ICVaR)을 이용한 POMDP에서의 온라인 리스크 회피 계획을 개발하고, 정책 평가 및 희소 샘플링에 대한 유한 시간 보장을 제공하며, POMCPOW와 PFT-DPW를 ICVaR를 최적화하도록 확장하여 실험에서 리스크 중립 기준선에 비해 꼬리 위험 성능이 향상되었음을 보인다.

ABSTRACT

We study risk-sensitive planning under partial observability using the dynamic risk measure Iterated Conditional Value-at-Risk (ICVaR). A policy evaluation algorithm for ICVaR is developed with finite-time performance guarantees that do not depend on the cardinality of the action space. Building on this foundation, three widely used online planning algorithms--Sparse Sampling, Particle Filter Trees with Double Progressive Widening (PFT-DPW), and Partially Observable Monte Carlo Planning with Observation Widening (POMCPOW)--are extended to optimize the ICVaR value function rather than the expectation of the return. Our formulations introduce a risk parameter $α$, where $α= 1$ recovers standard expectation-based planning and $α< 1$ induces increasing risk aversion. For ICVaR Sparse Sampling, we establish finite-time performance guarantees under the risk-sensitive objective, which further enable a novel exploration strategy tailored to ICVaR. Experiments on benchmark POMDP domains demonstrate that the proposed ICVaR planners achieve lower tail risk compared to their risk-neutral counterparts.

연구 동기 및 목표

부분 관측하에서 안전성과 견고성을 향상시키기 위한 리스크-회피 계획의 필요성을 동기 부여한다.
POMDP 가치함수에 대한 동적 리스크 척도로서 ICVaR을 도입한다.
기대 보상 대신 ICVaR를 최적화하는 정책 평가 및 온라인 계획 알고리즘을 개발한다.

제안 방법

POMDP에서 파생된 PB-MDP에 대해 ICVaR action-value 및 value 함수를 정의한다.
ICVaR에 대한 유한 시간 성능 보장을 갖는 정책 평가 알고리즘을 개발한다(알고리즘 1).
위험 민감 계획을 얻기 위해 ICVaR Sparse Sampling으로 Sparse Sampling을 확장한다(알고리즘 2).
MCTS 기반 플래너(POMCPOW 및 PFT-DPW)를 ICVaR를 최적화하도록 적응시킨다(알고리즘 5 및 4).
농축 보장을 기반으로 한 ICVaR 특화 탐색 전략(ICVaR Progressive Widening)을 제안한다.

실험 결과

연구 질문

RQ1ICVaR을 POMDP의 온라인 계획에 어떻게 통합할 수 있는가?
RQ2PB-MDP에서 ICVaR 정책 평가 및 계획에 대해 어떤 유한 시간 보장을 확립할 수 있는가?
RQ3벤치마크 POMDP에서 ICVaR 기반 플래너가 리스크-중립 플래너에 비해 꼬리 위험을 감소시키는가?
RQ4기대 보상 대신 ICVaR를 최적화할 때 탐색은 어떻게 조정되어야 하는가?
RQ5다양한 POMDP 도메인에서 꼬리 위험 감소의 실질적 이득은 무엇인가?

주요 결과

Environment	POMCPOW	ICVaR-POMCPOW	PFT-DPW	ICVaR-PFT-DPW
LaserTag	15.06±0.40	12.47±0.46	26.04±0.91	16.33±0.61
LightDark	25.73±0.96	16.72±0.08	37.68±1.68	18.52±0.23

ICVaR 플래너는 벤치마크 POMDP 도메인에서 리스크-중립 상대보다 꼬리 위험이 더 낮다.
ICVaR 및 ICVaR Sparse Sampling에 대한 정책 평가에는 유한 시간 성능 보장이 있다.
ICVaR 기반 MCTS 플래너(ICVaR-POMCPOW 및 ICVaR-PFT-DPW)가 실험에서 꼬리 위험 개선을 보여준다.
LaserTag 및 LightDark 도메인에서 꼬리 지표의 상당한 감소로 꼬리 위험 개선이 입증된다.
ICVaR 목적에 맞춘 탐색 전략이 표준 Hoeffding 기반 탐색을 대체한다.
제공된 두 벤치마크에서 ICVaR 플래너가 리스크-중립 기준선보다 성능이 우수함이 실험에서 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.