QUICK REVIEW

[论文解读] Learning Invariant Representations for Reinforcement Learning without Reconstruction

Amy Zhang, Rowan McAllister|arXiv (Cornell University)|Jun 18, 2020

Reinforcement Learning in Robotics参考文献 37被引用 77

一句话总结

本文提出 Deep Bisimulation for Control (DBC)，一种非重建式表示学习方法，学习潜在编码，其距离反映双同态度量，能够在带干扰的高维观测中实现稳健控制。

ABSTRACT

We study how representation learning can accelerate reinforcement learning from rich observations, such as images, without relying either on domain knowledge or pixel-reconstruction. Our goal is to learn representations that both provide for effective downstream control and invariance to task-irrelevant details. Bisimulation metrics quantify behavioral similarity between states in continuous MDPs, which we propose using to learn robust latent representations which encode only the task-relevant information from observations. Our method trains encoders such that distances in latent space equal bisimulation distances in state space. We demonstrate the effectiveness of our method at disregarding task-irrelevant information using modified visual MuJoCo tasks, where the background is replaced with moving distractors and natural videos, while achieving SOTA performance. We also test a first-person highway driving task where our method learns invariance to clouds, weather, and time of day. Finally, we provide generalization results drawn from properties of bisimulation metrics, and links to causal inference.

研究动机与目标

激励学习任务相关表示，忽略高维观测中的与任务无关的细节。
提出一个实用的编码器学习目标，使潜在距离近似双同态距离。
证明学习到的表示在带视觉干扰与接近现实世界场景的情况下能够提升下游控制性能。
给出理论保证，将学习到的表示与价值函数界限和因果推断概念联系起来。

提出的方法

定义并使用双同态度量来引导表示学习，而不进行状态重构。
训练一个编码器 phi，使潜在表示之间的 L1 距离与（奖励差异 + 基于 Wasserstein 距离的转移差异）在式(4)中一致。
利用概率动力学模型和2-Wasserstein距离来计算潜在转移的损失。
将编码器与 Soft Actor-Critic (SAC) 集成，形成一个实际可用的强化学习算法（算法2）。
证明学习得到的 pi*-bisimulation 度量的收敛到一个不动点（定理1），并推导出价值函数界限结果（定理2–定理5）。
在带干扰的 DMC 任务和基于 CARLA 的自动驾驶场景中，与基线的重建和对比学习方法进行比较。

实验结果

研究问题

RQ1基于双同态度量的非重建表示学习目标是否能够在像素观测中对任务无关干扰实现稳健控制？
RQ2学习一个使 L1 距离近似双同态距离的潜在空间，是否能够提高对新干扰和新奖励函数的泛化？
RQ3将学习到的表示与价值函数的 Lipschitz 性和次优界联系起来的理论保证是什么？
RQ4在基于视觉的控制任务中，DBC 与基于重建和对比学习的基线相比如何？
RQ5该方法是否能够扩展到高保真真实视觉图像（如 CARLA 驾驶场景），并仍然优于基线？

主要发现

指标	SAC	DeepMDP	DBC (ours)
成功（100m）	12%	17%	24%
距离（m）	123.2±7.43	106.7±11.1	179.0±11.4
碰撞强度	4604±30.7	1958±15.6	2673±38.5
平均转向（%）	16.6%±0.019%	10.4%±0.015%	7.3%

DBC 在带有复杂干扰项（自然视频背景）的视觉控制任务中实现对干扰的鲁棒性，而重建方法则表现不佳。
DBC 学到的潜在空间呈现与任务相关配置对齐的结构，正如定性可视化所示（例如 t-SNE）。
理论结果给出基于双同态表示学习到的价值函数的次优性界限（定理2–定理5）。
在CARLA视觉的自动驾驶中，DBC 在驾驶指标上优于 SAC、DeepMDP、重建和对比基线。
泛化实验表明学习到的表示在干扰类型之间具有迁移性，并在保留奖励因果祖先时支持奖励泛化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。