[论文解读] Learning Invariant Representations for Reinforcement Learning without Reconstruction
本文提出 Deep Bisimulation for Control (DBC),一种非重建的表示学习方法,通过学习与 bisimulation 指标对齐的潜在编码来提升高维观测下的数据高效强化学习,并忽略任务无关的细节。
We study how representation learning can accelerate reinforcement learning from rich observations, such as images, without relying either on domain knowledge or pixel-reconstruction. Our goal is to learn representations that both provide for effective downstream control and invariance to task-irrelevant details. Bisimulation metrics quantify behavioral similarity between states in continuous MDPs, which we propose using to learn robust latent representations which encode only the task-relevant information from observations. Our method trains encoders such that distances in latent space equal bisimulation distances in state space. We demonstrate the effectiveness of our method at disregarding task-irrelevant information using modified visual MuJoCo tasks, where the background is replaced with moving distractors and natural videos, while achieving SOTA performance. We also test a first-person highway driving task where our method learns invariance to clouds, weather, and time of day. Finally, we provide generalization results drawn from properties of bisimulation metrics, and links to causal inference.
研究动机与目标
- 在高维观测中激励学习与任务相关的表示并忽略干扰因素。
- 提出一种基于梯度的方法来训练编码器,使潜在距离与 bisimulation 距离相匹配。
- 证明所学习的表示能够在不同视觉干扰下实现鲁棒的下游控制。
- 提供理论保证,将所学习的表示与最优价值函数界限及因果特征集合联系起来。
提出的方法
- 通过损失 J(phi) 定义并优化潜在空间距离,使 |z_i - z_j|_1 与 |r_i - r_j| + gamma W_2(P_hat(.|z_i,a_i), P_hat(.|z_j,a_j)) 对齐(方程式4)。
- 使用概率动力学模型计算潜在转移的预测下一个状态高斯量之间的 Wasserstein-2 距离。
- 将编码器 phi 与强化学习算法(SAC)集成,使编码器、策略和动力学模型能够迭代地训练(Algorithm 1 和 Algorithm 2)。
- 论证并证明所学习的 pi*-bisimulation 指标收敛到一个不动点,并给出关于基于 bisimulation 的潜在距离的价值函数 Lipschitz 上界。
- 提供普适性见解,将基于 bisimulation 的表示与奖励的因果祖先及任务泛化联系起来。
实验结果
研究问题
- RQ1一种非重建的、基于 bisimulation 的表示能否学习在基于视觉的强化学习中忽略干扰的任务相关潜在编码?
- RQ2将潜在空间距离对齐到 bisimulation 距离,是否相比重建或对比学习方法提高数据效率并对视觉干扰更鲁棒?
- RQ3哪些理论保证将所学习的表示与价值函数界限以及因果推断概念联系起来?
- RQ4该方法在不同奖励函数和干扰类型(例如驾驶任务中的云层、天气和时间)下的泛化能力如何?
主要发现
| Method | Successes (100m) | Distance (m) | Crash intensity | Average steer |
|---|---|---|---|---|
| SAC | 12 | 123.2 ± 7.43 | 4604 ± 30.7 | 16.6% ± 0.019% |
| DeepMDP | 17 | 106.7 ± 11.1 | 1958 ± 15.6 | 10.4% ± 0.015% |
| DBC (ours) | 24 | 179.0 ± 11.4 | 2673 ± 38.5 | 7.3% |
- DBC 在视觉控制基准中对背景干扰具有最先端的鲁棒性,在分心的 MuJoCo 任务上超过重建和对比基线。
- 在具有高视觉真实感的驾驶风格任务(CARLA)中,DBC 明显优于基线,达到更高的任务成功率和更大无碰撞距离。
- 在驾驶实验中,该方法相对次佳基线实现 46.8% 的提升。
- DBC 学习的潜在表示将相似的任务相关状态聚集在一起,无论背景如何变化,正如定性可视化所示。
- 理论结果将学习到的潜在 bisimulation 指标与最优价值函数的 Lipschitz 上界及对奖励预测的因果祖先充分性联系起来。
- 实证泛化:所学习的表示对未见干扰和具有相同因果祖先的新奖励函数具有泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。