[論文レビュー] Task-Aware Exploration via a Predictive Bisimulation Metric
TEB は、タスク関連の視覚表現を学習し、メトリックベースの内部探索ボーナスを生成する予測的バイシミュレーション距離 metric を導入することで、視覚 RL におけるスパース報酬下での堅牢な探索を可能にし、表現学習を安定化させ、MetaWorld と Maze2D でのポリシー性能を向上させる。
Accelerating exploration in visual reinforcement learning under sparse rewards remains challenging due to the substantial task-irrelevant variations. Despite advances in intrinsic exploration, many methods either assume access to low-dimensional states or lack task-aware exploration strategies, thereby rendering them fragile in visual domains. To bridge this gap, we present TEB, a Task-aware Exploration approach that tightly couples task-relevant representations with exploration through a predictive Bisimulation metric. Specifically, TEB leverages the metric not only to learn behaviorally grounded task representations but also to measure behaviorally intrinsic novelty over the learned latent space. To realize this, we first theoretically mitigate the representation collapse of degenerate bisimulation metrics under sparse rewards by internally introducing a simple but effective predicted reward differential. Building on this robust metric, we design potential-based exploration bonuses, which measure the relative novelty of adjacent observations over the latent space. Extensive experiments on MetaWorld and Maze2D show that TEB achieves superior exploration ability and outperforms recent baselines.
研究の動機と目的
- スパース報酬下の視覚 RL における堅牢な探索を、表現学習をタスクセマンティクスと整合させることによって促進する。
- 予測的で退化しないバイシミュレーション距離を開発し、スパース報酬設定でも有益な情報を保つ。
- メトリックベースの表現と潜在空間でのポテンシャルベースの内部探索ボーナスを結合する。
- メトリックの挙動とシェーピング下のポリシー不変性に関する理論的保証を提供する。
提案手法
- 報酬の微分をガウス予測報酬差分に置換して、スパース報酬下の劣化を防ぐ予測的バイシミュレーション演算子を定義する。
- 報酬予測器を潜在空間上のガウスとしてモデル化し、平均と分散をマルチステップ報酬に適合させて学習する。
- 潜在距離を予測的バイシミュレーション距離と整合させるブートストラップ付きバイシミュレーション回帰損失を学習する。
- グローバルアンカー状態を用いた潜在空間のポテンシャル関数に基づくメトリックベースの内部探索ボーナスを構築する。
- メトリックベースのポテンシャルシェーピング下でのポリシー不変性を証明し、スパース報酬下で非退化な潜在メトリックを保証する。

実験結果
リサーチクエスチョン
- RQ1予測的バイシミュレーションメトリクスはスパース報酬の視覚 RL における表現崩壊を防げるのか?
- RQ2メトリックベースの内部報酬は、最適ポリシーを変えずにタスク意識的な探索を促進できるのか?
- RQ3予測的バイシミュレーションに由来する潜在空間の距離は価値差と相関し、探索を効果的に導けるのか?
- RQ4ガウス報酬予測はバイシミュレーション枠組みで学習と表現を安定化させるのか?
- RQ5提案された構成要素は、MetaWorld や Maze2D のような難易度の高い視覚タスクで性能を向上させるのか?
主な発見
| Domains | Square-a | Square-b | Square-c | Square-d | Corridor2 | Square-tree | Square-bottleneck |
|---|---|---|---|---|---|---|---|
| Disagreement | 0.38 ± 0.08 | 0.38 ± 0.20 | 0.39 ± 0.19 | 0.43 ± 0.14 | 0.48 ± 0.10 | 0.32 ± 0.10 | 0.34 ± 0.07 |
| ICM | 0.54 ± 0.08 | 0.57 ± 0.14 | 0.46 ± 0.06 | 0.59 ± 0.05 | 0.75 ± 0.07 | 0.41 ± 0.04 | 0.33 ± 0.06 |
| LBS | 0.30 ± 0.04 | 0.27 ± 0.05 | 0.25 ± 0.02 | 0.33 ± 0.03 | 0.44 ± 0.07 | 0.23 ± 0.04 | 0.21 ± 0.04 |
| Proto | 0.40 ± 0.04 | 0.40 ± 0.06 | 0.38 ± 0.09 | 0.48 ± 0.04 | 0.71 ± 0.04 | 0.24 ± 0.02 | 0.23 ± 0.01 |
| RND | 0.42 ± 0.10 | 0.60 ± 0.13 | 0.39 ± 0.12 | 0.37 ± 0.04 | 0.63 ± 0.10 | 0.28 ± 0.09 | 0.32 ± 0.09 |
| BeCL | 0.52 ± 0.05 | 0.48 ± 0.12 | 0.43 ± 0.09 | 0.47 ± 0.05 | 0.67 ± 0.13 | 0.37 ± 0.07 | 0.30 ± 0.05 |
| CeSD | 0.71 ± 0.05 | 0.66 ± 0.05 | 0.60 ± 0.05 | 0.57 ± 0.06 | 0.82 ± 0.06 | 0.40 ± 0.02 | 0.46 ± 0.05 |
| LSD | 0.42 ± 0.03 | 0.43 ± 0.06 | 0.37 ± 0.02 | 0.45 ± 0.03 | 0.56 ± 0.05 | 0.28 ± 0.02 | 0.35 ± 0.04 |
| DIAYN | 0.43 ± 0.05 | 0.48 ± 0.06 | 0.42 ± 0.04 | 0.47 ± 0.03 | 0.57 ± 0.06 | 0.37 ± 0.04 | 0.28 ± 0.04 |
| SMM | 0.42 ± 0.10 | 0.35 ± 0.14 | 0.32 ± 0.07 | 0.35 ± 0.02 | 0.84 ± 0.04 | 0.25 ± 0.02 | 0.34 ± 0.06 |
| TEB (Ours) | 0.87 ± 0.07 | 0.85 ± 0.07 | 0.74 ± 0.04 | 0.77 ± 0.04 | 0.93 ± 0.02 | 0.50 ± 0.04 | 0.47 ± 0.03 |
- TEB は視覚的な干渉とスパース報酬を伴う MetaWorld のタスクで、強力なベースラインより高い成功率と収束速度を達成した。
- 報酬なし Maze2D 実験では、TEB が迷路レイアウト全体で最高の状態カバレッジを達成し、CeSD や他のベースラインを上回った。
- アブレーション実験は、予測的バイシミュレーション表現と内部報酬の双方がタスクを横断して有意に寄与することを示した。
- アンカー状態戦略(疑似アンカー)は、ランダム初期アンカーや固定初期アンカーより優れた探索をもたらす。
- バイシミュレーション距離の予測ガウス報酬は、タスク関連の差を表現する上で地上真実報酬よりも優位に働く。
- 理論的結果として、スパース報酬下での非退化メトリック挙動と、メトリックベースのシェーピングによるポリシー不変性が確立される。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。