QUICK REVIEW

[논문 리뷰] Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization

Matteo Pannacci, Andrea Fanti|arXiv (Cornell University)|2026. 02. 10.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 Neural Reward Machines를 사용하여 원시 관찰로부터 다중 작업 정책과 심볼 그라운더를 함께 학습하는 방법을 제시하여, 서브-심볼릭 환경에서 보지 못한 LTL 작업에 대해 제로샷 일반화가 가능하도록 한다.

ABSTRACT

In this work we address the problem of training a Reinforcement Learning agent to follow multiple temporally-extended instructions expressed in Linear Temporal Logic in sub-symbolic environments. Previous multi-task work has mostly relied on knowledge of the mapping between raw observations and symbols appearing in the formulae. We drop this unrealistic assumption by jointly training a multi-task policy and a symbol grounder with the same experience. The symbol grounder is trained only from raw observations and sparse rewards via Neural Reward Machines in a semi-supervised fashion. Experiments on vision-based environments show that our method achieves performance comparable to using the true symbol grounding and significantly outperforms state-of-the-art methods for sub-symbolic environments.

연구 동기 및 목표

서브-심볼릭 환경에서 실제 기호 그라운딩이 이용 불가능한 상태에서 Linear Temporal Logic(LTL)로 표현된 다중 시간 확장 지시를 따르는 도전을 동기부여하고 해결한다.
Neural Reward Machines(NRMs)을 통해 원시 관찰과 희소 보상에서 정책과 심볼 그라운드를 함께 학습하는 공동 학습 프레임워크를 제안한다.
레이블링 함수에 대한 접근을 가정하지 않으면서도 unseen tasks로의 이전 가능성을 유지하도록 LTL2Action을 확장한다.

제안 방법

Ground truth를 통해 진행된 LTL 공식을 기반으로 한 확률적 그라운딩 함수를 사용하여 비마르코프 RL 정책을 학습하는 문제로 형식화한다.
신경 보상 기계(NRM)를 통해 비마르코프 보상과 기호 그라운딩을 미분 가능한 오토마타 프레임워크로 모델링하여 심볼 그라운더에 대한 간접 감독을 제공한다.
관찰을 기호 집합 P의 분포로 매핑하는 그라운더 L_theta와 진척된 공식을 특징 공간으로 임베딩하는 LTL 모듈을 사용한다; PPO 기반 정책 학습을 위해 그라운더/비전 특징을 LTL 특징과 결합한다.
훈련Task당 하나씩 여러 NRMs를 공유하는 방식으로 학습시키고, 예측 보상과 관찰된 보상 사이의 교차 엔트로피를 최소화하여 시간 역전(backpropagation through time)으로 그라운더를 업데이트한다.
공정화된 LTL 공식을 무어 머신(Moore Machines)로 번역하되 출력 -1, 0, +1을 사용하여 보상을 계산하고 NRM 학습을 유도한다; LTL 진행을 오토마타 상태에 연결하여 점진적으로 작업 표현을 업데이트한다.

Figure 2 : (a) Unfolded computational graph of the grounder training through the LTL task’s Neural Reward Machine, employing backpropagation through time. $q\textsuperscript{$i$}$ denotes the initial state of the NRM and $\tilde{q}\textsuperscript{($t$)}$ denotes the predicted state at time $t$ . (b

실험 결과

연구 질문

RQ1NRMs로 간접 감독하에 학습된 단일 기호 그라운더가 서브-심볼릭 환경에서 보지 못한 LTL 작업으로의 제로샷 일반화를 지원할 수 있는가?
RQ2다중 작업 설정에서 정책과 그라운더를 함께 학습하는 것이, 알려진 그라운딩을 가정하는 baselines보다 성능이 우수하고 완전한 그라운딩으로의 상한에 얼마나 근접할 수 있는가?
RQ3이 접근법이 이질적인 Minecraft 같은(discrete) 환경과 FlatWorld 같은 연속 환경으로 일반화되는가, 더 길고 복잡한 작업 공식 포함?
RQ4LTL 모듈을 함께 학습하는지 고정하는지에 따른 차이와 작업 진행 인코딩이 성능에 어떤 영향을 미치는가?
RQ5제로샷 전이에서 그라운더 정확도와 작업 유형(예: Global Avoidance vs Partially-Ordered)의 한계는 무엇인가?

주요 결과

제안된 방법은 실제 라벨링 함수가 알려진 상한에 가까운 성능을 달성하며, 학습 및 unseen 긴 공식을 거의 손실 없이 수행한다.
그라운더 정확도는 일반적으로 100만 프레임 내에 수렴하며 높게 유지되며, 특히 부정 보상이 명확한 신호를 제공하는 Global Avoidance 작업에서 더 뚜렷하다.
이 방법은 그라운딩을 학습하지 않는 baselines 다중 작업 RL 접근법을 Minecraft 유사 및 FlatWorld 환경에서 크게 능가한다.
관련된 보조 작업에 대한 제로샷 일반화는 가능하며, 일부 설정에서 Global Avoidance의 특정 실패 사례를 제외하고는 부분적으로 순서가 있는 작업에서 알려진 그라운더로 학습하는 것과 비슷한 성능을 보인다.
학습용으로 다중 NRMs 사용하는 것은 공유 그라운더가 명시적 레이블 없이도 올바른 기호 그라운딩을 학습하도록 간접 감독을 제공한다.
훼손이 초기에는 완벽하지 않지만, 다수의 학습 작업과 진행 정보의 구조를 활용하면서 그라운딩 신호가 향상된다.

(a) Partially-Ordered Tasks (Minecraft-like Env)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.