QUICK REVIEW

[論文レビュー] Information-Driven Active Perception for k-step Predictive Safety Monitoring

Sumukha Udupa, Jie Fu|arXiv (Cornell University)|Mar 24, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

要約: 論文は、ラベル付き HMM と DFA ベースの安全仕様を用い、センサー照会予算の下で部分観測系における k ステップ予測安全性不確実性を最小化する情報理論的・能動的知覚ポリシーを開発する。

ABSTRACT

This work studies the synthesis of active perception policies for predictive safety monitoring in partially observable stochastic systems. Operating under strict sensing and communication budgets, the proposed monitor dynamically schedules sensor queries to maximize information gain about the safety of future states. The underlying stochastic dynamics are captured by a labeled hidden Markov model (HMM), with safety requirements defined by a deterministic finite automaton (DFA). To enable active information acquisition, we introduce minimizing k-step Shannon conditional entropy of the safety of future states as a planning objective, under the constraint of a limited sensor query budget. Using observable operators, we derive an efficient algorithm to compute the k-step conditional entropy and analyze key properties of the conditional entropy gradient with respect to policy parameters. We validate the effectiveness of the method for predictive safety monitoring through a dynamic congestion game example.

研究の動機と目的

部分観測とリソース制約の下で予測安全性を動機づける。
能動知覚を、セーフティの k ステップ予測エントロピーの最小化として定式化する。
observable operators を活用したポリシー勾配法を開発し、予算に対して感知ポリシーを合成する。

提案手法

controllable emissions を伴うラベル付き HMM と、安全性を DFA で指定して環境をモデル化する。
システム動力学と安全ラベリングを結合する Product HMM を構築する。
k-step の予測安全性を、観測履歴に条件付けた k ステップ内に故障状態へ入るイベントのエントロピーとして定義する。
observable operators を用いて条件エントロピーの勾配をポリシー参数に対して導出する。
情報利得と感知コストのバランスを取るスイッチングコスト正則化項を含むポリシー勾配学習ルールを提案する。
観測履歴に対する勾配推定のサンプルベース近似を提供する。

Figure 1: Environment topological graph with sensor coverages.

実験結果

リサーチクエスチョン

RQ1感知予算制約の下で、k ステップ内に将来の安全違反が発生するかどうかの不確実性を最小化するようにセンサ照会を能動的にスケジュールできるか？
RQ2 observable operators を用いた partially observable 設定で、情報理論的目的（k-ステップ条件付きエントロピー）を効率的に最適化できるか？
RQ3学習された能動知覚ポリシーは、ランダム感知や完全観測（oracle）と比較して予測安全モニタリングにおいてどのように優れるか？
RQ4 perception-switching コストが学習された感知戦略と予測性能に与える影響は？

主な発見

Horizon (k)	Uniform Random Brier Score	Uniform Random Cost	Trained Policy Brier Score	Trained Policy Cost	Oracle Brier Score	Oracle Cost	% Imprv.
1	0.1791 ± 0.0075	227.07 ± 4.00	0.0564 ± 0.0029	200.65 ± 2.24	0.0149 ± 0.0006	68.53 ± 0.00	74.72%
3	0.1880 ± 0.0066	224.07 ± 4.07	0.0799 ± 0.0035	198.11 ± 2.00	0.0386 ± 0.0016	195.84 ± 1.87	72.33%
5	0.1931 ± 0.0058	230.31 ± 3.80	0.0939 ± 0.0040	195.84 ± 1.87	0.0576 ± 0.0025	194.85 ± 1.91	73.21%
10	0.2007 ± 0.0055	224.57 ± 4.14	0.1255 ± 0.0049	194.55 ± 1.78	0.0921 ± 0.0040	194.55 ± 1.78	69.24%
15	0.2012 ± 0.0069	230.18 ± 3.81	0.1395 ± 0.0059	194.85 ± 1.91	0.1124 ± 0.0051	194.85 ± 1.91	69.48%

提案手法は、複数の k ステップ horizon で一様ランダム感知ベースラインと比べて予測安全誤差を低減する。
学習されたポリシーは完全状態情報を持つ oracle の性能に近づき、ブライヤースコアを大幅に低減する（例: k=1 では平均0.1791から0.0564へ）。
情報獲得と感知コストの間には明確なトレードオフがある。コストパラメータ alpha を大きくするとセンサ使用が減少し、予測不確実性はわずかな上昇で収まる。
ポリシー学習は勾配ベースの学習ルールの下で収束を示し、k の各ホライズン {1,3,5,10,15} でoracle への gap を顕著に縮小。
より長い horizon (k) ではブライヤースコアが大きくなる傾向があり不確実性が増すが、学習されたポリシーはランダム感知に対して30.66%〜68.53%程度の gap を維持して substantial な改善を示す。
本手法は、動的混雑ゲームで検証され、予測安全のための情報駆動型能動知覚の実用的有効性を示す。

Figure 4: Comparison of $k$ -step prediction accuracy with posterior sampling.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。