Skip to main content
QUICK REVIEW

[논문 리뷰] Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Dmitrii Plotnikov, Iaroslav Kolomiets|arXiv (Cornell University)|2026. 03. 23.
Reinforcement Learning in Robotics인용 수 0
한 줄 요약

VRL은 실행 불확실성 하에서 목표 수준 로봇 계획을 위해 실행 가능한 행동 트리를 반복적으로 정제하기 위해 실행 가능한 행동 트리를 반복적으로 정제하기 위해 폐쇄 루프에 대형 언어 모델(actor)과 시각–언어 모델(critic)을 결합하여 gradient 기반 학습 없이 수행한다.

ABSTRACT

We propose a new Verbal Reinforcement Learning (VRL) framework for interpretable task-level planning in mobile robotic systems operating under execution uncertainty. The framework follows a closed-loop architecture that enables iterative policy improvement through interaction with the physical environment. In our framework, executable Behavior Trees are repeatedly refined by a Large Language Model actor using structured natural-language feedback produced by a Vision-Language Model critic that observes the physical robot and execution traces. Unlike conventional reinforcement learning, policy updates in VRL occur directly at the symbolic planning level, without gradient-based optimization. This enables transparent reasoning, explicit causal feedback, and human-interpretable policy evolution. We validate the proposed framework on a real mobile robot performing a multi-stage manipulation and navigation task under execution uncertainty. Experimental results show that the framework supports explainable policy improvements, closed-loop adaptation to execution failures, and reliable deployment on physical robotic systems.

연구 동기 및 목표

  • 실행 불확실성 하에서 작동하는 이동 로봇에 대해 견고한 작업 수준 정책을 유도한다.
  • 심볼릭 계획(BT)을 직접 업데이트하여 gradient-based RL에 대한 해석 가능한 대안을 제공한다.
  • 구조화된 구두 피드백을 통해 실제 실행에 정책 개선을 기반으로 하는 폐루프 아키텍처를 제안한다.
  • critic 주도 피드백이 시뮬레이션이나 그래디언트 없이 하드웨어 인지적 적응을 가능하게 하는 방법을 보여준다.

제안 방법

  • 작업 정책을 실행 가능한 Behavior Trees로 표현한다.
  • LLM을 기호적 정책 개선 actor로 사용하여 구조화된 critic 피드백을 바탕으로 BT를 편집한다.
  • 시각-언어 모델(vision–language model) critic를 사용해 실행을 관찰하고 구조화된 자연어 피드백과 두 스칼라(alarm score 와 confidence)를 생성한다.
  • 초기, 중간, 최종 critic 평가가 BT 업데이트를 안내하는 에피소드식 루프를 운영한다.
  • gradient 기반 학습을 피하고; 업데이트는 투명성과 검증 가능성을 위해 심볼릭 계획을 직접 수정한다.
  • 학습 안정성을 개선하기 위해 구조화된 심볼릭 지각 입력을 선택적으로 제공한다.

실험 결과

연구 질문

  • RQ1critic 주도 구두 피드백 루프가 물리 로봇에서 효과적인 작업 수준 정책 정제를 가능하게 할 수 있는가?
  • RQ2구조화된 지각 입력과 작업 특화 critic 조정이 개방 루프 또는 비적응 critic과 비교해 수렴 및 최종 성능을 향상시키는가?
  • RQ3critic-기반의 해석가능한 BT 정제가 실행 불확실성 하에서 gradient-based 혹은 순수 보상 기반 방법보다 더 강건한가?
  • RQ4critic의 품질(및 BT 수준의 오류 범주와의 정합성)이 실제 배포에서 학습 역학 및 안전성에 어떻게 영향을 미치는가?

주요 결과

  • critic 기반 구조화된 피드백은 설명 가능한 정책 개선 및 실행 실패에 대한 실제 로봇의 적응을 가능하게 한다.
  • critic 정확도와 보정은 특히 미세 조정되거나 기호적 블록 정보가 제공될 때 더 빠른 수렴과 더 높은 최종 점수와 상관관계가 있다.
  • BlockInfo를 가진 Gemini-3 Pro 기반 크리틱이 가장 강력한 성능과 다양한 환경에서의 안정적 학습을 달성한다.
  • 크리틱이 없는 기본서는 성능이 저조하고 일관된 개선을 달성하지 못한다.
  • 도메인에 적합한 더 작은 모델(예: 3B)은 작업 피드백에 적절히 조정되면 더 크고 일반적인 모델보다 성능이 우수할 수 있다.
  • 액터는 크리틱의 한계에 적응하며 필요시 크리틱-인식 계획 및 보수적인 업데이트를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.