Skip to main content
QUICK REVIEW

[论文解读] Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization

Matteo Pannacci, Andrea Fanti|arXiv (Cornell University)|Feb 10, 2026
Topic Modeling被引用 0
一句话总结

论文提出一种方法,通过 Neural Reward Machines 在原始观测下联合学习多任务策略和符号着地器,使在子符号环境中对未见 LTL 任务实现零-shot 泛化。

ABSTRACT

In this work we address the problem of training a Reinforcement Learning agent to follow multiple temporally-extended instructions expressed in Linear Temporal Logic in sub-symbolic environments. Previous multi-task work has mostly relied on knowledge of the mapping between raw observations and symbols appearing in the formulae. We drop this unrealistic assumption by jointly training a multi-task policy and a symbol grounder with the same experience. The symbol grounder is trained only from raw observations and sparse rewards via Neural Reward Machines in a semi-supervised fashion. Experiments on vision-based environments show that our method achieves performance comparable to using the true symbol grounding and significantly outperforms state-of-the-art methods for sub-symbolic environments.

研究动机与目标

  • 在子符号环境中,面对用线性时序逻辑(LTL)表达的多 temporally-extended 指令,真实符号着地不可用时,激发并解决跟随挑战。
  • 提出一个联合学习框架,通过 Neural Reward Machines(NRMs)从原始观测和稀疏奖励中训练策略和符号着地器。
  • 在不假设访问标注函数的前提下扩展 LTL2Action,同时保持对未见任务的可迁移性。

提出的方法

  • 将问题表述为学习一个非马尔可夫性强化学习策略,该策略以通过真实凭据的逐步推进的 LTL 公式为条件。
  • 使用 Neural Reward Machines 通过在可微分自动机框架中对非马尔可夫奖励和符号着地进行建模,为符号着地器提供间接监督。
  • 使用一个将观测映射到符号集 P 的着地器 L_theta,以及将推进的公式嵌入到特征空间的 LTL 模块;将着地器/视觉特征与 LTL 特征连接起来用于基于 PPO 的策略学习。
  • 训练多個 NRMs(每个训练任务一个)共用同一个着地器,通过最小化预测奖励与观测奖励之间的交叉熵来更新着地器,从而通过时间反向传播。
  • 将共安全 LTL 公式翻译为 Moore 机器(输出为 -1、0、+1)以计算奖励并指导 NRM 学习;将 LTL 推进与自动机状态相关联,以逐步更新任务表示。
Figure 2 : (a) Unfolded computational graph of the grounder training through the LTL task’s Neural Reward Machine, employing backpropagation through time. $q\textsuperscript{$i$}$ denotes the initial state of the NRM and $\tilde{q}\textsuperscript{($t$)}$ denotes the predicted state at time $t$ . (b
Figure 2 : (a) Unfolded computational graph of the grounder training through the LTL task’s Neural Reward Machine, employing backpropagation through time. $q\textsuperscript{$i$}$ denotes the initial state of the NRM and $\tilde{q}\textsuperscript{($t$)}$ denotes the predicted state at time $t$ . (b

实验结果

研究问题

  • RQ1使用 NRMs 与间接监督训练的单一学习符号着地器,是否能够对子符号环境中的未见 LTL 任务实现零-shot 泛化?
  • RQ2在多任务设置下联合学习策略和着地器,是否优于假设已知着地的基线方法,并且接近具有完美着地的上界?
  • RQ3该方法如何扩展到离散环境(类似 Minecraft)和连续环境(FlatWorld),包括更长/更复杂的任务公式?
  • RQ4联合学习 LTL 模块与固定其之间,任务进展编码如何影响性能?
  • RQ5着地器精度的局限性以及任务类型(如 Global Avoidance 与 Partially-Ordered)对零-shot 迁移的影响?

主要发现

  • 所提出的方法在真实标注函数已知的上界附近实现性能,训练与未见更长公式几乎无损失。
  • 着地器在大约 100 万帧内通常收敛且保持较高准确性,尤其在 Global Avoidance 任务中负奖励提供了更清晰的信号。
  • 方法在 Minecraft 及 FlatWorld 环境中显著优于不学习着地的基线多任务强化学习方法。
  • 对未见但相关的任务公式实现零-shot 泛化是可行的,且在部分有序任务中与使用已知着地的训练相当;在某些情景下 Global Avoidance 仍存在一些失败案例。
  • 使用多個 NRMs 进行训练任务提供间接监督,帮助共享着地器在没有显式标签的情况下学习正确的符号着地。
  • 尽管在训练初期着地信号并不完美,但随着系统利用多任务结构和推进信息,着地信号不断改进。
(a) Partially-Ordered Tasks (Minecraft-like Env)
(a) Partially-Ordered Tasks (Minecraft-like Env)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。