[論文レビュー] Action Hallucination in Generative Visual-Language-Action Models
この論文は潜在変数を用いる視覚-言語-行動モデルにおける行動幻覚を分析し、それがトポロジー、精度、ホライズンの障壁に起因することを示し、表現力を損なうことなく理解・緩和する正式な枠組みを提供する。
Robot Foundation Models such as Vision-Language-Action models are rapidly reshaping how robot policies are trained and deployed, replacing hand-designed planners with end-to-end generative action models. While these systems demonstrate impressive generalization, it remains unclear whether they fundamentally resolve the long-standing challenges of robotics. We address this question by analyzing action hallucinations that violate physical constraints and their extension to plan-level failures. Focusing on latent-variable generative policies, we show that hallucinations often arise from structural mismatches between feasible robot behavior and common model architectures. We study three such barriers -- topological, precision, and horizon -- and show how they impose unavoidable tradeoffs. Our analysis provides mechanistic explanations for reported empirical failures of generative robot policies and suggests principled directions for improving reliability and trustworthiness, without abandoning their expressive power.
研究の動機と目的
- 潜在ヘッド生成 VLAs における行動と計画の幻覚がどのように発生するかを説明する。
- アーキテクチャの規約性と物理的実現可能性の制約を結ぶ正式な枠組みを構築する。
- ロボティクスのタスクにおける幻覚の原因となるトポロジー、精度、ホライズンの障壁を特定する。
- VLAs の信頼性と信頼性向上のための原理的な方向性を提案する。
提案手法
- 潜在ヘッド方針における幻覚を研究するために環境、タスク、物理的妥当性を定義する。
- 連続潜在ヘッドを用いた多モード coverage に対するトポロジカル impossibility の結果を証明する。
- 幻覚とデコーダーの滑らかさおよびモード分離を結ぶガウス等長不等式の下限を導出する。
- 接触タスクに対する精度障壁を分析し、下限と精度トリレンマを導出する。
- 長期ホライズンタスクにおける検証支援計画と適応探索戦略を検討する。
実験結果
リサーチクエスチョン
- RQ1連続潜在ヘッドVLAs において訓練努力にもかかわらず、なぜ行動と計画の幻覚が持続するのか。
- RQ2連続デコーダーの下で、行動空間のトポロジーと幾何的性質は不可避な幻覚をどのように誘導するのか。
- RQ3接触を多く含むタスクでの精度障壁は何で、それは行動分布をどのように制約するのか。
- RQ4ホライズン長と検証ノイズは信頼性にどう影響し、どの探索戦略が有効か。
- RQ5表現を変えずに幻覚を軽減するためのアーキテクチャの変更案は何か。
主な発見
- 安全な行動が禁止領域で分離されたモードとして形成される場合、連続的な潜在-to-行動写像の下で幻覚発生の可能性は厳密に正の値となる。
- 定量的な等周不等式の下限は、デコーダーを滑らかにしモード間隔を近づけるほど幻覚リスクが高まることを示す。
- 低次元多様体を周囲に保持する際に幻覚を低く保つには、ポリシーが崩壊するか、折り畳むか、幻覚するかのいずれかになる必要があるという精度障壁を示す。
- 反復的な改良と適応的検証は精度とホライズンの障壁を緩和できるが、表現を変更せずには根本的なトレードオフを解消できない。
- 長期ホライズンタスクでは、検証による安全かつ到達可能な集合内に進捗アクションが留まらない限り、各ステップで成功確率が低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。