QUICK REVIEW

[论文解读] Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization

Matteo Pannacci, Andrea Fanti|arXiv (Cornell University)|Feb 10, 2026

Topic Modeling被引用 0

一句话总结

论文提出一种方法，通过 Neural Reward Machines 在原始观测下联合学习多任务策略和符号着地器，使在子符号环境中对未见 LTL 任务实现零-shot 泛化。

ABSTRACT

In this work we address the problem of training a Reinforcement Learning agent to follow multiple temporally-extended instructions expressed in Linear Temporal Logic in sub-symbolic environments. Previous multi-task work has mostly relied on knowledge of the mapping between raw observations and symbols appearing in the formulae. We drop this unrealistic assumption by jointly training a multi-task policy and a symbol grounder with the same experience. The symbol grounder is trained only from raw observations and sparse rewards via Neural Reward Machines in a semi-supervised fashion. Experiments on vision-based environments show that our method achieves performance comparable to using the true symbol grounding and significantly outperforms state-of-the-art methods for sub-symbolic environments.

研究动机与目标

在子符号环境中，面对用线性时序逻辑（LTL）表达的多 temporally-extended 指令，真实符号着地不可用时，激发并解决跟随挑战。
提出一个联合学习框架，通过 Neural Reward Machines（NRMs）从原始观测和稀疏奖励中训练策略和符号着地器。
在不假设访问标注函数的前提下扩展 LTL2Action，同时保持对未见任务的可迁移性。

提出的方法

将问题表述为学习一个非马尔可夫性强化学习策略，该策略以通过真实凭据的逐步推进的 LTL 公式为条件。
使用 Neural Reward Machines 通过在可微分自动机框架中对非马尔可夫奖励和符号着地进行建模，为符号着地器提供间接监督。
使用一个将观测映射到符号集 P 的着地器 L_theta，以及将推进的公式嵌入到特征空间的 LTL 模块；将着地器/视觉特征与 LTL 特征连接起来用于基于 PPO 的策略学习。
训练多個 NRMs（每个训练任务一个）共用同一个着地器，通过最小化预测奖励与观测奖励之间的交叉熵来更新着地器，从而通过时间反向传播。
将共安全 LTL 公式翻译为 Moore 机器（输出为 -1、0、+1）以计算奖励并指导 NRM 学习；将 LTL 推进与自动机状态相关联，以逐步更新任务表示。

Figure 2 : (a) Unfolded computational graph of the grounder training through the LTL task’s Neural Reward Machine, employing backpropagation through time. $q\textsuperscript{$i$}$ denotes the initial state of the NRM and $\tilde{q}\textsuperscript{($t$)}$ denotes the predicted state at time $t$ . (b

实验结果

研究问题

RQ1使用 NRMs 与间接监督训练的单一学习符号着地器，是否能够对子符号环境中的未见 LTL 任务实现零-shot 泛化？
RQ2在多任务设置下联合学习策略和着地器，是否优于假设已知着地的基线方法，并且接近具有完美着地的上界？
RQ3该方法如何扩展到离散环境（类似 Minecraft）和连续环境（FlatWorld），包括更长/更复杂的任务公式？
RQ4联合学习 LTL 模块与固定其之间，任务进展编码如何影响性能？
RQ5着地器精度的局限性以及任务类型（如 Global Avoidance 与 Partially-Ordered）对零-shot 迁移的影响？

主要发现

所提出的方法在真实标注函数已知的上界附近实现性能，训练与未见更长公式几乎无损失。
着地器在大约 100 万帧内通常收敛且保持较高准确性，尤其在 Global Avoidance 任务中负奖励提供了更清晰的信号。
方法在 Minecraft 及 FlatWorld 环境中显著优于不学习着地的基线多任务强化学习方法。
对未见但相关的任务公式实现零-shot 泛化是可行的，且在部分有序任务中与使用已知着地的训练相当；在某些情景下 Global Avoidance 仍存在一些失败案例。
使用多個 NRMs 进行训练任务提供间接监督，帮助共享着地器在没有显式标签的情况下学习正确的符号着地。
尽管在训练初期着地信号并不完美，但随着系统利用多任务结构和推进信息，着地信号不断改进。

(a) Partially-Ordered Tasks (Minecraft-like Env)

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。