QUICK REVIEW

[論文レビュー] Online Risk-Averse Planning in POMDPs Using Iterated CVaR Value Function

Yaacov Pariente, Vadim Indelman|arXiv (Cornell University)|Jan 28, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

本論文はIterated CVaR (ICVaR)を用いたPOMDPにおけるオンラインリスク回避計画を開発し、ポリシー評価とスパースサンプリングに対する有限時間保証を提供し、POMCPOWとPFT-DPWをICVaR最適化へ拡張、リスク中立ベースラインより尾部リスク性能が改善される実験を示す。

ABSTRACT

We study risk-sensitive planning under partial observability using the dynamic risk measure Iterated Conditional Value-at-Risk (ICVaR). A policy evaluation algorithm for ICVaR is developed with finite-time performance guarantees that do not depend on the cardinality of the action space. Building on this foundation, three widely used online planning algorithms--Sparse Sampling, Particle Filter Trees with Double Progressive Widening (PFT-DPW), and Partially Observable Monte Carlo Planning with Observation Widening (POMCPOW)--are extended to optimize the ICVaR value function rather than the expectation of the return. Our formulations introduce a risk parameter $α$, where $α= 1$ recovers standard expectation-based planning and $α< 1$ induces increasing risk aversion. For ICVaR Sparse Sampling, we establish finite-time performance guarantees under the risk-sensitive objective, which further enable a novel exploration strategy tailored to ICVaR. Experiments on benchmark POMDP domains demonstrate that the proposed ICVaR planners achieve lower tail risk compared to their risk-neutral counterparts.

研究の動機と目的

部分観測下でのリスク回避計画の必要性を動機づけ、安全性とロバスト性を高める。
POMDPの値関数に対する動的リスク指標としてICVaRを導入する。
期待報酬ではなくICVaRを最適化するポリシー評価とオンライン計画アルゴリズムを開発する。

提案手法

PB-MDPsから導出されるPOMDPのためのICVaRアクション価値関数と値関数を定義する。
ICVaRの有限時間性能保証を持つポリシー評価アルゴリズムを開発する（アルゴリズム1）。
リスク感度の高い計画を得るためのICVaR Sparse Samplingへ拡張する（アルゴリズム2）。
MCTSベースのプランナー（POMCPOWとPFT-DPW）をICVaR最適化へ適合させる（アルゴリズム5と4）。
ICVaR専用の探索戦略を、集中保証に基づく(ICVaR Progressive Widening)として提案する。

実験結果

リサーチクエスチョン

RQ1オンライン計画をPOMDPにICVaRとして組み込むにはどうすればよいか。
RQ2PB-MDPにおけるICVaRポリシー評価と計画の有限時間保証とは何か。
RQ3ICVaRベースのプランナーはベンチマークPOMDPにおいて尾部リスクをリスク中立プランナーより低減できるか。
RQ4ICVaRを最適化する際の探索は期待報酬を最適化する場合とどう異なるべきか。
RQ5さまざまなPOMDP領域で尾部リスク削減における実践的な向上はどの程度か。

主な発見

Environment	POMCPOW	ICVaR-POMCPOW	PFT-DPW	ICVaR-PFT-DPW
LaserTag	15.06±0.40	12.47±0.46	26.04±0.91	16.33±0.61
LightDark	25.73±0.96	16.72±0.08	37.68±1.68	18.52±0.23

ICVaRプランナーはベンチマークPOMDP領域において尾部リスクをリスク中立と比較して低減する。
ICVaRのポリシー評価とICVaR Sparse Samplingは有限時間性能保証を伴う。
ICVaRベースのMCTSプランナー（ICVaR-POMCPOWとICVaR-PFT-DPW）は実験で尾部リスクの改善を示す。
尾部リスクの改善はLaserTagとLightDark領域の尾部指標で大幅な低減として示される。
ICVaR目的に特化した探索戦略が標準のHoeffdingベース探索に置換される。
実験は提供されたベンチマークの両方でリスク中立ベースラインを上回ることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。