[論文レビュー] Online Bayesian Goal Inference for Boundedly-Rational Planning Agents
本論文は、最適な計画とサブ最適な計画の両方をオンラインで推定するための逐次モンテカルロ法 SIPS を提示します。探索と実行を繰り返す境界的に合理的なプランナーとしてエージェントをモデル化することで、エージェントの目標を推定します。
People routinely infer the goals of others by observing their actions over time. Remarkably, we can do so even when those actions lead to failure, enabling us to assist others when we detect that they might not achieve their goals. How might we endow machines with similar capabilities? Here we present an architecture capable of inferring an agent's goals online from both optimal and non-optimal sequences of actions. Our architecture models agents as boundedly-rational planners that interleave search with execution by replanning, thereby accounting for sub-optimal behavior. These models are specified as probabilistic programs, allowing us to represent and perform efficient Bayesian inference over an agent's goals and internal planning processes. To perform such inference, we develop Sequential Inverse Plan Search (SIPS), a sequential Monte Carlo algorithm that exploits the online replanning assumption of these models, limiting computation by incrementally extending inferred plans as new actions are observed. We present experiments showing that this modeling and inference architecture outperforms Bayesian inverse reinforcement learning baselines, accurately inferring goals from both optimal and non-optimal trajectories involving failure and back-tracking, while generalizing across domains with compositional structure and sparse rewards.
研究の動機と目的
- 人間が行うようにサブ最適または失敗した計画から目標を推定する必要性を動機づける。
- 象徴的環境と相互作用する境界的に合理的なプランニングエージェントの生成モデルを提案する。
- 再計画を活用して計算を抑制するオンラインSMCアルゴリズムであるSequential Inverse Plan Search (SIPS)を開発する。
- 多様な領域をサポートするため、PDDLベースのフレームワークに目標・状態・観測を埋め込む。
- 複数の領域と人間実験ベンチマークに対してベイズIRLベースラインと比較してアプローチを評価する。
提案手法
- エージェントを目標事前分布・計画更新・行動選択・状態遷移を含む確率的プログラムとしてモデル化する。
- 多様な領域とスパース報酬を扱うため、目標と状態をPDDLで表現する。
- 負二項分布からサンプルされたランダムな計画予算を用いた確率的な境界的に合理的探索を通じてサブ最適な計画をモデル化する。
- オンライン推論を Sequential Inverse Plan Search (SIPS) で実行する。これは仮定した計画を観察として拡張する粒子法である。
- 仮説の多様性を維持するため、再サンプリングと二つのリジュベネーションカーネル(ヒューリスティック駆動の目標提案とエラー駆動の再計画提案)を用いる。
- Gen での推論を計画ドメイン埋め込みとオンライン部分計画拡張を活用して実現し、計算を実用的に保つ。
実験結果
リサーチクエスチョン
- RQ1オンラインベイズ推定は、サブ最適または失敗した一連の行動からエージェントの目標を回復できるか。
- RQ2限られた探索での再計画を伴う境界的に合理的な計画モデルは、オンラインでの目標推定能力にどう影響するか。
- RQ3SIPSは多様な計画領域で精度と速度の点でベイズIRLベースラインを上回るか。
- RQ4データ生成過程と仮定したエージェントモデルのミスマッチ、及び人間的な計画行動に対してどれだけ頑健か。
- RQ5構成的な構造とスパース報酬を持つ領域へフレームワークは一般化できるか。
主な発見
| Domain | Method | P(g_true|o) Q1 | P(g_true|o) Q2 | P(g_true|o) Q3 | Top-1 | C0 (s) | MC (s) | AC (s) | N | ||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Taxi (3 Goals) | SIPS (ours) | 0.44 | 0.50 | 0.62 | 0.53 | 0.56 | 0.67 | 13.0 | 1.80 | 2.55 | 1429 |
| Taxi (3 Goals) | BIRL (unbiased) | 0.34 | 0.35 | 0.79 | 0.33 | 0.42 | 0.92 | 2.22 | 0.00 | 0.16 | 10000 |
| Taxi (3 Goals) | BIRL (oracle) | 0.37 | 0.47 | 0.81 | 0.42 | 0.44 | 0.86 | 1.63 | 0.00 | 0.12 | 2500 |
| Doors, Keys & Gems (3 Goals) | SIPS (ours) | 0.37 | 0.51 | 0.61 | 0.74 | 0.74 | 0.74 | 3.30 | 0.70 | 0.86 | 2099 |
| Doors, Keys & Gems (3 Goals) | BIRL (unbiased) | 0.33 | 0.33 | 0.33 | 0.33 | 0.33 | 0.33 | 3326 | 0.12 | 154 | 250000 |
| Doors, Keys & Gems (3 Goals) | BIRL (oracle) | 0.37 | 0.36 | 0.42 | 0.44 | 0.60 | 0.80 | 150 | 0.12 | 7.01 | 10000 |
| Block Words (5 Goals) | SIPS (ours) | 0.47 | 0.83 | 0.90 | 0.78 | 0.84 | 0.91 | 20.8 | 2.46 | 4.15 | 2506 |
| Block Words (5 Goals) | BIRL (unbiased) | 0.20 | 0.20 | 0.21 | 0.42 | 0.49 | 0.56 | 687 | 0.27 | 63.6 | 250000 |
| Block Words (5 Goals) | BIRL (oracle) | 0.20 | 0.29 | 0.45 | 0.73 | 0.80 | 0.96 | 22.2 | 0.05 | 2.12 | 10000 |
| Intrusion Detection (20 Goals) | SIPS (ours) | 0.56 | 0.87 | 0.87 | 0.65 | 0.87 | 0.87 | 375 | 6.60 | 28.0 | 13321 |
| Intrusion Detection (20 Goals) | BIRL (unbiased) | 0.05 | 0.05 | 0.05 | 0.05 | 0.05 | 0.05 | 18038 | 0.75 | 1069 | 250000 |
| Intrusion Detection (20 Goals) | BIRL (oracle) | 0.09 | 0.24 | 0.53 | 0.94 | 1.00 | 1.00 | 98 | 0.02 | 6.00 | 10000 |
- SIPSは最適および非最適な軌道(後退や失敗を含む)から目標を正確に推定する。
- 領域を超えて、SIPSは多くの場合、精度と速度の点でバイアスのないベイズIRLを上回り、時には Oracle IRL と同等またはそれを上回りつつ、計算コストを大幅に抑える。
- SIPSは複数の領域で真の目標後方事典 P(g_true|o) の推定値をベースラインより高く示す。
- 人間による時系列の推論パターンは、BIRLベースラインよりSIPSとより強く相関し、人間のような推論を反映している。
- SIPSはデータ生成過程と想定エージェントモデル間の中程度の不一致に対して頑健で、人間データ上でも有効性を保つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。