QUICK REVIEW

[論文レビュー] ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems

Xinhai Sun, Xiang Shi|arXiv (Cornell University)|Mar 21, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

論文は、単一の外部カメラを用いて手中心の自己視点ROIsを生成する決定論的FK投影ROIワークフローを提案し、クロスロボットデータ再利用を可能にし、Vision–Language–Actionシステムにおけるセンサ/キャリブレーション負担を軽減します。

ABSTRACT

The development of embodied AI systems is increasingly constrained by the availability and structure of physical interaction data. Despite recent advances in vision-language-action (VLA) models, current pipelines suffer from high data collection cost, limited cross-embodiment alignment, and poor transfer from internet-scale visual data to robot control. We propose a region-of-interest (ROI) driven engineering workflow that introduces an egocentric, geometry-grounded data representation. By projecting end-effector poses via forward kinematics (FK) into a single external camera, we derive movement-aligned hand-centric ROIs without requiring wrist-mounted cameras or multi-view systems. Unlike directly downsampling the full frame, ROI is cropped from the original image before resizing, preserving high local information density for contact-critical regions while retaining global context. We present a reproducible pipeline covering calibration, synchronization, ROI generation, deterministic boundary handling, and metadata governance. The resulting representation is embodiment-aligned and viewpoint-normalized, enabling data reuse across heterogeneous robots. We argue that egocentric ROI serves as a practical data abstraction for scalable collection and cross-embodiment learning, bridging internet-scale perception and robot-specific control.

研究の動機と目的

VLAシステムのスケーラブルなクロスエンボディメント学習を、幾何学に基づくデータ表現の縮小で動機付ける。
単一の外部カメラから手中心のROIを生成する決定論的FK-to-ROIパイプラインを導入する。
ROIアーティファクトの再現性とクロスロボット移植性を保証するガバナンススキーマとメタデータを提供する。
現場でのデータ収集とキャリブレーション負担を低減するROI統合のエンジニアリングワークフローを提供する。

提案手法

統一されたロボットベースフレーム、エンドエフェクタフレーム、カメラフレームを、バージョン付きキャリブレーションパラメータとともに定義する。
前方運動学によってエンドエフェクタ姿勢を計算し、キャリブレーション済み内部参照系を用いて外部カメラへ投影する。
embodiment-awareな内側シフト中心を適用し、クロップ前に手中心のROIパッチを得て、枠外領域にはゼロパディングを適用する。
ROIを固定解像度256x256にリサイズし、ROI信頼度メタデータを付与する。
ROIを再現性のある派生アーティファクトとして扱い、系統と共有の履歴を保証するバージョン付きメタデータを含むガバナンススキーマを適用する。
ViTフレームワークにおいて、グローバルおよびROIトークン列を連結してROIベースの融合戦略を記述し、操作領域へのアテンションを偏らせる。

実験結果

リサーチクエスチョン

RQ1単一の外部カメラからのFK投影ROIは、クロスロボットVLAモデルに対して手中心の監視情報を同等に提供できるか？
RQ2幾何学 groundingされたROI抽象が、異種ロボット間のデータ収集コスト、キャリブレーション負担、および再現性にどのような影響を与えるか？
RQ3信頼できるクロスエンボディメントデータ共有とROIストリームの再生成を可能にするガバナンスメタデータと品質チェックは何か？
RQ4ROIをグローバルコンテキストと言語/プロプリエプション入力と、構造変更なしで統一VLAバックボーンに統合するにはどうするか？
RQ5古いデータセットをROI表現に適合させ、エンボディメント間の転送ロバスト性を評価できる評価プロトコルは何か？

主な発見

FK-to-ROIパイプラインは、動作に整列した手中心のクロップと、枠外領域のゼロパディングを持つ決定論的境界を生成する。
ROIアーティファクトは、再現可能な再生成とガバナンスをサイト間で可能にする、明示的なキャリブレーション/バージョンメタデータとともに定義される。
ROIは、ローカルな操作手が保持されつつグローバルコンテキストを維持するフォーミングするフォーベール視覚 supervisionチャンネルとして機能する。
ROIベースの融合は、マルチモーダルTransformerフレームワーク内で操作領域へのアテンションを偏らせるが、モデルヘッド自体には変更を加えない。
提案されたワークフローは、手首カメラや多視点設定と比較してキャリブレーションとセンサー負担を削減しつつ、VLA信号のクロスエンボディメント転送を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。