[論文レビュー] From Robotics to Sepsis Treatment: Offline RL via Geometric Pessimism
Geo-IQLはImplicit Q-Learningを拡張し、幾何学的距離ペナルティを事前計算してOODアクションを抑制する。分断データでの安定性を改善し、ロボティクスと敗血症ケアデータセットでより安全で高品質なポリシーを達成。
Offline Reinforcement Learning (RL) promises the recovery of optimal policies from static datasets, yet it remains susceptible to the overestimation of out-of-distribution (OOD) actions, particularly in fractured and sparse data manifolds. Current solutions necessitate a trade-off between computational efficiency and performance. Methods like CQL offer rigorous conservatism but require tremendous compute power while efficient expectile-based methods like IQL often fail to correct OOD errors on pathological datasets, collapsing to Behavioural Cloning. In this work, we propose Geometric Pessimism, a modular, compute-efficient framework that augments standard IQL with density-based penalty derived from k-nearest-neighbour distances in the state-action embedding space. By pre-computing the penalties applied to each state-action pair, our method injects OOD conservatism via reward shaping with a O(1) training overhead to the training loop. Evaluated on the D4RL MuJoCo benchmark, our method, Geo-IQL outperforms standard IQL on sensitive and unstable medium-replay tasks by over 18 points, while reducing inter-seed standard-deviation by 4 times. Furthermore, Geo-IQL does not degrade performance on stable manifolds. Crucially, we validate our algorithm on the MIMIC-III Sepsis critical care dataset. While standard IQL collapses to behaviour cloning, Geo-IQL demonstrates active policy improvement. Maintaining safety constraints, it achieves 86.4% terminal agreement with clinicians compared to IQL's 75%. Our results suggest that geometric pessimism provides the necessary regularisation to safely overcome local optima in critical, real-world decision systems.
研究の動機と目的
- データが分断されるか希少な高リスク領域での安全なオフラインRLを動機づける。
- インサンプル学習に幾何学的ペナルティを加える計算効率の高い方法を提案する。
- トレーニングオーバーヘッドをO(1)に維持するためのペナルティの事前計算を可能にする。
- ロボティクスのベンチマークとクリティカルケアデータで安定性とポリシー品質の改善を実証する。
提案手法
- 状態-行動ペアを結合空間に埋め込み、平均kNN距離を幾何学的不確実性の代理指標として計算する。
- MADを用いて距離を頑健に標準化し、安全なコア閾値を用いてグレーデッドリスク表面(U)を作成する。
- 密度適応ペナルティを適用して報酬を調整する:r_geo(s,a)=r(s,a)−λ_adapt·max(0,U(s,a))。
- トレーニング中のペナルティ取得をO(1)にするためのルックアップテーブルでペナルティを事前計算する。
- IQLのターゲットとペナルティを統合し、評価者は同じままでクリティックはペナルティ付き報酬で学習する。

実験結果
リサーチクエスチョン
- RQ1幾何学的距離がデータマニホールドへの距離がオフラインRLにおけるエピステミック不確実性の代理として機能し得るか。
- RQ2事前計算された幾何学ベースのペナルティを追加することで、分断データでIQLの性能が安定性を損なうことなく改善されるか。
- RQ3Geo-IQLはMIMIC-III敗血症のような高リスクの実世界データで標準IQLやCQLと比較してどの程度性能を示すか。
- RQ4このアプローチは控えめなハードウェアで実行できるほど計算効率が高いか。
- RQ5幾何学ガイド付きオフラインRLによって医療現場での安全性と臨床医適合性にどのような利益が生まれるか。
主な発見
| Task | BC | CQL | IQL | Geo-IQL |
|---|---|---|---|---|
| halfcheetah-medium-replay-v2 | 27.69 ± 10.92 | 45.41 ± 0.81 | 43.68 ± 4.15 | 42.52 ± 3.04 |
| hopper-medium-replay-v2 | 51.87 ± 20.26 | 82.60 ± 21.10 | 80.09 ± 21.80 | 98.94 ± 5.33 |
| walker2d-medium-replay-v2 | 43.17 ± 25.77 | 78.28 ± 18.85 | 80.17 ± 17.89 | 82.10 ± 13.39 |
- Geo-IQLはD4RL MuJoCoスイートのHopper-medium-replay-v2で標準IQLを18ポイント以上上回る。
- Geo-IQLはセンシティブなタスクで種間標準偏差を約4倍低減する。
- Geo-IQLは安定な多様体でIQLと同等の性能を維持し、データが密な領域を保持する。
- MIMIC-III敗血症ではGeo-IQLがTerminal State Agreementを高く達成(86.39%対75.02%)。
- Geo-IQLは正のQ改善を達成(ΔQ=+0.0138)、一方IQLは負のΔQ(−0.0169)を示す。
- Geo-IQLは安全性を維持しつつクリティカルケアでのターゲットポリシー改善を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。