[論文レビュー] Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning
Lexpop は DRL でニューラル方策を訓練し、形式検証可能な有限状態コントローラ(FSC)を抽出する。 worst-caseモデルに対して反復的に訓練することで HM-POMDP の堅牢な FSC へと拡張する。
Solving partially observable Markov decision processes (POMDPs) requires computing policies under imperfect state information. Despite recent advances, the scalability of existing POMDP solvers remains limited. Moreover, many settings require a policy that is robust across multiple POMDPs, further aggravating the scalability issue. We propose the Lexpop framework for POMDP solving. Lexpop (1) employs deep reinforcement learning to train a neural policy, represented by a recurrent neural network, and (2) constructs a finite-state controller mimicking the neural policy through efficient extraction methods. Crucially, unlike neural policies, such controllers can be formally evaluated, providing performance guarantees. We extend Lexpop to compute robust policies for hidden-model POMDPs (HM-POMDPs), which describe finite sets of POMDPs. We associate every extracted controller with its worst-case POMDP. Using a set of such POMDPs, we iteratively train a robust neural policy and consequently extract a robust controller. Our experiments show that on problems with large state spaces, Lexpop outperforms state-of-the-art solvers for POMDPs as well as HM-POMDPs.
研究の動機と目的
- DRL と有限状態コントローラ抽出を組み合わせることで、大規模な POMDP の解法をスケーラブルにする。
- 抽出した FSC の正式検証を提供し、性能を保証する。
- モデル不確実性に対処するため、Hidden-Model POMDP(HM-POMDP)に対して堅牢な FSC へフレームワークを拡張する。
- 単一および HM-POMDP 設定において、DRL ベース FSC を最先端のモデルベース解法と比較する。
提案手法
- DRL(PPO)を用いたベクトル化シミュレータで RNN ベースのニューラル方策を訓練する。
- Alergia または自己解釈可能ネットワーク(SIG)を用いてニューラル方策を模倣する確率的 FSC を抽出する。
- Markov連鎖を構築して値を計算することで抽出した FSC を解析的に検証する。
- 最悪ケースの POMDP に対して反復的に訓練し、堅牢な FSC を抽出することで Lexpop を HM-POMDP へ拡張する。
- Paynt を用いて誘導されたマルコフ連鎖の中から最悪ケースモデルを効率的に探索する。
- ポリシー抽出を、基盤のポリシーアーキテクチャに依存せずブラックボックスとして扱えるようにする。

実験結果
リサーチクエスチョン
- RQ1Lexpop は POMDP の最先端 FSC 合成よりも高い値を持つ FSC を構築できるか?
- RQ2FSC 抽出はテストされた問題でニューラル方策の値を保持または改善できるか?
- RQ3自己解釈可能な SIG 抽出は自動機械学習(Alergia)より忠実度を改善できるか?
- RQ4HM-POMDP において Lexpop は rfPG より高い最悪値を持つ堅牢な FSC を生み出せるか?
- RQ5最悪ケース POMDP の選択は HM-POMDP の解法において重要か?
主な発見
- Lexpop はスケーラビリティを示し、いくつかのベンチマークで大規模 POMDP において最先端ソルバーを上回る。
- Alergia または SIG によって最終的なニューラル方策から抽出された FSC は、多くのケースでニューラル方策と比較して競争力のある値を達成する。
- SIG ベースの抽出は、より小さな FSC で忠実度を競争力のある水準に保ち、HM-POMDP 設定で堅牢な性能を維持する。
- HM-POMDP 実験では、Lexpop の派生版が rfPG よりも堅牢な値を複数モデルで達成し、FSC サイズも競争力がある。
- RobustLexpop における反復的な最悪ケース POMDP 選択は、モデルファミリ全体で堅牢性を向上させる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。