[论文解读] Task-Aware Exploration via a Predictive Bisimulation Metric
TEB 引入一种预测性等价性度量以学习与任务语义相关的视觉表征并生成基于度量的内在探索奖金,从而在稀疏奖励的视觉强化学习中实现鲁棒探索。它稳定了表征学习并提升了在 MetaWorld 和 Maze2D 上的策略性能。
Accelerating exploration in visual reinforcement learning under sparse rewards remains challenging due to the substantial task-irrelevant variations. Despite advances in intrinsic exploration, many methods either assume access to low-dimensional states or lack task-aware exploration strategies, thereby rendering them fragile in visual domains. To bridge this gap, we present TEB, a Task-aware Exploration approach that tightly couples task-relevant representations with exploration through a predictive Bisimulation metric. Specifically, TEB leverages the metric not only to learn behaviorally grounded task representations but also to measure behaviorally intrinsic novelty over the learned latent space. To realize this, we first theoretically mitigate the representation collapse of degenerate bisimulation metrics under sparse rewards by internally introducing a simple but effective predicted reward differential. Building on this robust metric, we design potential-based exploration bonuses, which measure the relative novelty of adjacent observations over the latent space. Extensive experiments on MetaWorld and Maze2D show that TEB achieves superior exploration ability and outperforms recent baselines.
研究动机与目标
- 通过将表征学习与任务语义对齐,在稀疏奖励下促进鲁棒探索的视觉强化学习。
- 开发在稀疏奖励设置中仍具信息性的预测性、非退化的等价性度量。
- 将基于度量的表征与潜在空间中的基于势的内在探索奖金结合起来。
- 为度量行为和通过塑形实现策略不变性提供理论保证。
提出的方法
- 通过用高斯预测奖励差分来替换奖励差分,从而在稀疏奖励下防止退化,定义一个预测性等价性运算符。
- 将奖励预测器建模为潜在空间上的高斯分布,其均值与方差通过拟合多步回报进行学习。
- 学习一个自举式的等价性回归损失,以将潜在距离对齐到预测性等价性距离。
- 通过在潜在空间使用全局锚点状态构造一个基于度量的内在探索奖金。
- 证明在基于度量的势 shaping 下策略不变性,并确保在稀疏奖励下潜在度量的非退化性。

实验结果
研究问题
- RQ1预测性等价性度量能否防止稀疏奖励下的表征崩溃(representation collapse)?
- RQ2基于度量的内在奖励如何在不改变最优策略的前提下促进任务感知探索?
- RQ3从预测性等价性派生的潜在空间距离是否与价值差异相关并有效引导探索?
- RQ4在等价性框架中高斯奖励预测能否稳定学习与表征?
- RQ5所提出的组件是否在像 MetaWorld 与 Maze2D 这样的挑战性视觉任务上提升性能?
主要发现
- TEB 在具有视觉干扰和稀疏奖励的 MetaWorld 任务上比强基线获得更高的成功率和更快的收敛。
- 在无奖励的 Maze2D 实验中,TEB 达到跨迷宫布局的最高状态覆盖率,优于 CeSD 及其他基线。
- 消融实验表明预测性等价性表征与内在奖励在各任务中都做出非线性贡献。
- 锚点状态策略(伪锚点)在探索性方面优于随机或固定初始锚点。
- 对等价性度量的预测高斯奖励在表示与任务相关差异方面优于真实奖励。
- 理论结果确立了在稀疏奖励下的非退化度量行为以及基于度量的塑形对策略的不变性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。