QUICK REVIEW

[论文解读] ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems

Xinhai Sun, Xiang Shi|arXiv (Cornell University)|Mar 21, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

论文提出了一种确定性 FK 投影 ROI 工作流，使用单个外部相机生成以手为中心的第一视角 ROI，从而实现跨机器人数据再利用，并在 Vision–Language–Action 系统中降低传感器/标定负担。

ABSTRACT

The development of embodied AI systems is increasingly constrained by the availability and structure of physical interaction data. Despite recent advances in vision-language-action (VLA) models, current pipelines suffer from high data collection cost, limited cross-embodiment alignment, and poor transfer from internet-scale visual data to robot control. We propose a region-of-interest (ROI) driven engineering workflow that introduces an egocentric, geometry-grounded data representation. By projecting end-effector poses via forward kinematics (FK) into a single external camera, we derive movement-aligned hand-centric ROIs without requiring wrist-mounted cameras or multi-view systems. Unlike directly downsampling the full frame, ROI is cropped from the original image before resizing, preserving high local information density for contact-critical regions while retaining global context. We present a reproducible pipeline covering calibration, synchronization, ROI generation, deterministic boundary handling, and metadata governance. The resulting representation is embodiment-aligned and viewpoint-normalized, enabling data reuse across heterogeneous robots. We argue that egocentric ROI serves as a practical data abstraction for scalable collection and cross-embodiment learning, bridging internet-scale perception and robot-specific control.

研究动机与目标

通过减少、基于几何的数据表示，推动 VLA 系统的可扩展跨具身学习。
引入一个确定性 FK-to-ROI 流线，从单一外部相机生成手部为中心的 ROI。
提供治理模式和元数据，确保 ROI 制品的可重复性与跨机器人可移植性。
在实际部署中提供一个 ROI 集成的工程工作流，降低数据收集与标定负担。

提出的方法

用版本化校准参数定义统一的机器人基座、末端执行器和相机坐标系。
通过正向运动学计算末端执行器姿态，并使用经过标定的内参/外参将其投影到外部相机。
在裁剪前应用 embodiment-aware 的内缩中心，以获得手部为中心的 ROI 裂片，对越界区域进行零填充。
将 ROI 调整为固定的 256x256 分辨率，并附上 ROI 置信度元数据。
将 ROI 视为可重复的派生工件，具备版本化元数据的治理模式，用于血统追溯与共享。
在 VLA 架构中描述基于 ROI 的融合策略，通过在 ViT 框架中拼接全局 token 流和 ROI token 流，从而偏置注意力到操作区域。

实验结果

研究问题

RQ1单个外部相机投影的 FK-ROI 是否能为跨机器 VLA 模型提供可比的手部为中心监督？
RQ2基于几何的 ROI 抽象在数据采集成本、标定负担和跨异构机器人再现性方面有何影响？
RQ3需要哪些治理元数据和质量检查，以实现跨具身数据共享与 ROI 流的可靠再生？
RQ4在不改变架构的前提下，如何将 ROI 与全局上下文以及语言/本体感知输入在统一的 VLA 主干上集成？
RQ5哪些评估协议可以将旧数据集改造为 ROI 表达，并评估跨具身的迁移鲁棒性？

主要发现

FK-to-ROI 流线能够产生与动作对齐、手为中心的裁剪，边界确定且对越界区域采用零填充。
ROI 工件通过显式的标定/版本元数据来定义，以实现跨站点的可重复再生和治理。
ROI 作为一个黄斑式监督通道，能够在保持全局上下文的同时保留局部操作线索。
基于 ROI 的融合在多模态 Transformer 框架中偏置注意力至操作区域，而不改变模型头部结构。
所提工作流相对于腕部摄像头或多视角设置，降低了标定与传感器负担，同时实现跨具身的 VLA 信号迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。