Skip to main content
QUICK REVIEW

[論文レビュー] MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models

Xunlan Zhou, Xuanlin Chen|arXiv (Cornell University)|Jan 28, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

MARVLは視覚-言語モデルを微調整し、多段階分解とタスク指向投影および信頼閾値形成を導入することで、スパース報酬環境におけるロボット操作の信頼性が高く、学習進捗を意識した報酬を提供する。

ABSTRACT

Designing dense reward functions is pivotal for efficient robotic Reinforcement Learning (RL). However, most dense rewards rely on manual engineering, which fundamentally limits the scalability and automation of reinforcement learning. While Vision-Language Models (VLMs) offer a promising path to reward design, naive VLM rewards often misalign with task progress, struggle with spatial grounding, and show limited understanding of task semantics. To address these issues, we propose MARVL-Multi-stAge guidance for Robotic manipulation via Vision-Language models. MARVL fine-tunes a VLM for spatial and semantic consistency and decomposes tasks into multi-stage subtasks with task direction projection for trajectory sensitivity. Empirically, MARVL significantly outperforms existing VLM-reward methods on the Meta-World benchmark, demonstrating superior sample efficiency and robustness on sparse-reward manipulation tasks.

研究の動機と目的

  • 既存のVLMベース報酬がロボット操作において抱える制約(空間的 grounding、進捗認識、意味的整合性)を特定する。
  • targeted fine-tuning と構造化を通じて VLM 報酬を改善するプラグアンドプレイ型フレームワークを提案する。
  • Meta-World での多様な操作タスクに対するサンプル効率とロバスト性の改善を示し、Panda-Gym へのクロスドメイン転移を示す。

提案手法

  • Scene-View Decomposition による VLM のファインチューニングで、シーンの意味論を視点ノイズから分離する。
  • Task Direction Projection を用いた多段階分解で、進捗信号をサブタスク目標と整列させる。
  • Confidence-Thresholded Shaping を導入し、意味的信頼度に基づいて VLM 報酬をゲートしてノイズを低減する。
  • projected start/goal embedding と現在の観測とのコサイン類似度を用いて投影済み埋め込みから報酬を算出する。
  • 中間目標に対する類似度閾値で段階遷移を自動的に管理する。
  • MARVL が異なる RL バックボーン(SAC および TD3)と互換性があることを実証する。
Figure 1: Radar plot of performance across eight Meta-World manipulation tasks. MARVL achieves consistently strong and balanced performance across all skill categories, surpassing the Oracle reward on several tasks and outperforming prior VLM-based reward methods.
Figure 1: Radar plot of performance across eight Meta-World manipulation tasks. MARVL achieves consistently strong and balanced performance across all skill categories, surpassing the Oracle reward on several tasks and outperforming prior VLM-based reward methods.

実験結果

リサーチクエスチョン

  • RQ1 MARVL は Meta-World ベンチマークの既存の VLM 報酬ベースラインと比較してどの程度性能を発揮するか。
  • RQ2 MARVL の個々の構成要素(シーンビュー分解、TDP、CTS)は有効で、どの要素がどの場面で最も寄与するか。
  • RQ3 MARVL は異なる RL バックボーンおよびカメラ設定の下で一般化できるか。
  • RQ4 MARVL はターゲットドメイン適応なしで Panda-Gym など別ドメインへ転移できるか。
  • RQ5 多段階かつ方向投影報酬は学習のために安定的かつ単調な進捗信号を提供するか。

主な発見

  • MARVL は eight Meta-World タスク全体で従来のVLMベース報酬を一貫して上回る。
  • Button Press や Window Close など複数のタスクで Oracle 密報酬と同等または上回る。
  • Scene-View Decomposition によって空間的 grounding が改善され、埋め込みの安定性が向上する。
  • Task Direction Projection と多段階分解によりサンプル効率と収束速度が向上する。
  • Confidence-Thresholded Shaping はノイズを低減し、報酐ハッキングを抑制して安定性を向上させる。
  • MARVL はカメラビューと RL バックボーン(SAC から TD3)を跨いだ一般化が可能で、ドメイン適応なしで Panda-Gym へ転移する。
Figure 2: Reward Misalignment in VLM-Based Methods. Left: VLM reward signals along an oracle button-press-topdown trajectory. The green dashed curve denotes the environment-provided dense reward in Meta-World, whose scale differs from VLM rewards and is shown only to indicate the overall trend of ta
Figure 2: Reward Misalignment in VLM-Based Methods. Left: VLM reward signals along an oracle button-press-topdown trajectory. The green dashed curve denotes the environment-provided dense reward in Meta-World, whose scale differs from VLM rewards and is shown only to indicate the overall trend of ta

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。