Skip to main content
QUICK REVIEW

[논문 리뷰] Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization

Matteo Pannacci, Andrea Fanti|arXiv (Cornell University)|2026. 02. 10.
Topic Modeling인용 수 0
한 줄 요약

이 논문은 Neural Reward Machines를 사용하여 원시 관찰로부터 다중 작업 정책과 심볼 그라운더를 함께 학습하는 방법을 제시하여, 서브-심볼릭 환경에서 보지 못한 LTL 작업에 대해 제로샷 일반화가 가능하도록 한다.

ABSTRACT

In this work we address the problem of training a Reinforcement Learning agent to follow multiple temporally-extended instructions expressed in Linear Temporal Logic in sub-symbolic environments. Previous multi-task work has mostly relied on knowledge of the mapping between raw observations and symbols appearing in the formulae. We drop this unrealistic assumption by jointly training a multi-task policy and a symbol grounder with the same experience. The symbol grounder is trained only from raw observations and sparse rewards via Neural Reward Machines in a semi-supervised fashion. Experiments on vision-based environments show that our method achieves performance comparable to using the true symbol grounding and significantly outperforms state-of-the-art methods for sub-symbolic environments.

연구 동기 및 목표

  • 서브-심볼릭 환경에서 실제 기호 그라운딩이 이용 불가능한 상태에서 Linear Temporal Logic(LTL)로 표현된 다중 시간 확장 지시를 따르는 도전을 동기부여하고 해결한다.
  • Neural Reward Machines(NRMs)을 통해 원시 관찰과 희소 보상에서 정책과 심볼 그라운드를 함께 학습하는 공동 학습 프레임워크를 제안한다.
  • 레이블링 함수에 대한 접근을 가정하지 않으면서도 unseen tasks로의 이전 가능성을 유지하도록 LTL2Action을 확장한다.

제안 방법

  • Ground truth를 통해 진행된 LTL 공식을 기반으로 한 확률적 그라운딩 함수를 사용하여 비마르코프 RL 정책을 학습하는 문제로 형식화한다.
  • 신경 보상 기계(NRM)를 통해 비마르코프 보상과 기호 그라운딩을 미분 가능한 오토마타 프레임워크로 모델링하여 심볼 그라운더에 대한 간접 감독을 제공한다.
  • 관찰을 기호 집합 P의 분포로 매핑하는 그라운더 L_theta와 진척된 공식을 특징 공간으로 임베딩하는 LTL 모듈을 사용한다; PPO 기반 정책 학습을 위해 그라운더/비전 특징을 LTL 특징과 결합한다.
  • 훈련Task당 하나씩 여러 NRMs를 공유하는 방식으로 학습시키고, 예측 보상과 관찰된 보상 사이의 교차 엔트로피를 최소화하여 시간 역전(backpropagation through time)으로 그라운더를 업데이트한다.
  • 공정화된 LTL 공식을 무어 머신(Moore Machines)로 번역하되 출력 -1, 0, +1을 사용하여 보상을 계산하고 NRM 학습을 유도한다; LTL 진행을 오토마타 상태에 연결하여 점진적으로 작업 표현을 업데이트한다.
Figure 2 : (a) Unfolded computational graph of the grounder training through the LTL task’s Neural Reward Machine, employing backpropagation through time. $q\textsuperscript{$i$}$ denotes the initial state of the NRM and $\tilde{q}\textsuperscript{($t$)}$ denotes the predicted state at time $t$ . (b
Figure 2 : (a) Unfolded computational graph of the grounder training through the LTL task’s Neural Reward Machine, employing backpropagation through time. $q\textsuperscript{$i$}$ denotes the initial state of the NRM and $\tilde{q}\textsuperscript{($t$)}$ denotes the predicted state at time $t$ . (b

실험 결과

연구 질문

  • RQ1NRMs로 간접 감독하에 학습된 단일 기호 그라운더가 서브-심볼릭 환경에서 보지 못한 LTL 작업으로의 제로샷 일반화를 지원할 수 있는가?
  • RQ2다중 작업 설정에서 정책과 그라운더를 함께 학습하는 것이, 알려진 그라운딩을 가정하는 baselines보다 성능이 우수하고 완전한 그라운딩으로의 상한에 얼마나 근접할 수 있는가?
  • RQ3이 접근법이 이질적인 Minecraft 같은(discrete) 환경과 FlatWorld 같은 연속 환경으로 일반화되는가, 더 길고 복잡한 작업 공식 포함?
  • RQ4LTL 모듈을 함께 학습하는지 고정하는지에 따른 차이와 작업 진행 인코딩이 성능에 어떤 영향을 미치는가?
  • RQ5제로샷 전이에서 그라운더 정확도와 작업 유형(예: Global Avoidance vs Partially-Ordered)의 한계는 무엇인가?

주요 결과

  • 제안된 방법은 실제 라벨링 함수가 알려진 상한에 가까운 성능을 달성하며, 학습 및 unseen 긴 공식을 거의 손실 없이 수행한다.
  • 그라운더 정확도는 일반적으로 100만 프레임 내에 수렴하며 높게 유지되며, 특히 부정 보상이 명확한 신호를 제공하는 Global Avoidance 작업에서 더 뚜렷하다.
  • 이 방법은 그라운딩을 학습하지 않는 baselines 다중 작업 RL 접근법을 Minecraft 유사 및 FlatWorld 환경에서 크게 능가한다.
  • 관련된 보조 작업에 대한 제로샷 일반화는 가능하며, 일부 설정에서 Global Avoidance의 특정 실패 사례를 제외하고는 부분적으로 순서가 있는 작업에서 알려진 그라운더로 학습하는 것과 비슷한 성능을 보인다.
  • 학습용으로 다중 NRMs 사용하는 것은 공유 그라운더가 명시적 레이블 없이도 올바른 기호 그라운딩을 학습하도록 간접 감독을 제공한다.
  • 훼손이 초기에는 완벽하지 않지만, 다수의 학습 작업과 진행 정보의 구조를 활용하면서 그라운딩 신호가 향상된다.
(a) Partially-Ordered Tasks (Minecraft-like Env)
(a) Partially-Ordered Tasks (Minecraft-like Env)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.