[論文レビュー] Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning
VRL は大規模言語モデルの actor と vision–language model の critic をクローズドループで組み合わせ、実行不確実性下でのタスクレベルのロボット計画の実行可能な Behavior Tree を勾配ベースの学習なしで反復的に改良する。
We propose a new Verbal Reinforcement Learning (VRL) framework for interpretable task-level planning in mobile robotic systems operating under execution uncertainty. The framework follows a closed-loop architecture that enables iterative policy improvement through interaction with the physical environment. In our framework, executable Behavior Trees are repeatedly refined by a Large Language Model actor using structured natural-language feedback produced by a Vision-Language Model critic that observes the physical robot and execution traces. Unlike conventional reinforcement learning, policy updates in VRL occur directly at the symbolic planning level, without gradient-based optimization. This enables transparent reasoning, explicit causal feedback, and human-interpretable policy evolution. We validate the proposed framework on a real mobile robot performing a multi-stage manipulation and navigation task under execution uncertainty. Experimental results show that the framework supports explainable policy improvements, closed-loop adaptation to execution failures, and reliable deployment on physical robotic systems.
研究の動機と目的
- 実行不確実性下で動作するモバイルロボットの堅牢なタスクレベルポリシーを促進する。
- 勾配ベースの RL に代わる解釈可能な代替案を提供し、象徴的な計画(Behavior Tree)を直接更新する。
- 構造化された言語フィードバックを通じてポリシー改良を現実世界の実行に結びつけるクローズドループ構成を提案する。
- critic 主導のフィードバックがシミュレーションや勾配なしでハードウェア対応の適応を可能にすることを実証する。
提案手法
- タスクポリシーを実行可能な Behavior Tree として表現する。
- 構造化された critic フィードバックに基づき BT を編集する象徴的ポリシー改良 actor としての LLM を用いる。
- ビジョン– language モデルの critic を使い、実行を観察して構造化された自然言語フィードバックと二つのスカラー値(アラームスコアと信頼度)を生成する。
- 初期・中間・最終の critic 評価を指針として BT の更新をエピソードごとに行う。
- 勾配ベースの学習を避け、更新は象徴的プランを直接変更して透明性と検証可能性を確保する。
- 学習安定性を高めるため、任意で構造化された象徴的知覚入力を提供する。
実験結果
リサーチクエスチョン
- RQ1 critic による言語フィードバックループが物理的ロボット上で効果的なタスクレベルポリシー改良を可能にするか。
- RQ2構造化された知覚入力とタスク固有の critic のチューニングは、オープンループや適応しない critic と比較して収束と最終性能を向上させるか。
- RQ3 critic に基づく、解釈可能な BT 改善は、勾配ベースまたは報酬のみの方法よりも実行不確実性下でより堅牢か。
- RQ4 critic の品質(BT レベルの誤差カテゴリとの整合性)が学習ダイナミクスと実 deployments における安全性にどう影響するか。
主な発見
- critic ベースの構造化フィードバックは、実機での実行失敗へ適応し、方針を説明可能に改良できる。
- critic の正確さと較正、特に象徴ブロック情報を微調整する場合は、収束の速さと最終スコアの向上と相関する。
- BlockInfo を備えた Gemini-3 Pro に基づく critic は、 strongest な性能と環境間で安定した学習をもたらす。
- critic なしのベースラインは性能が低く、一貫した改善を達成できない。
- task フィードバックに適切に調整された小規模モデル(例: 3B)は、より大きな汎用モデルよりも優れるケースがある。
- actor は critic の制約に適応し、 critic が限定的な場合には計画を保守的に更新する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。