[论文解读] Project Aria: A New Tool for Egocentric Multi-Modal AI Research
本文介绍 Project Aria,一种可穿戴的第一人称多模态数据采集设备,配有软件工具和 Machine Perception Services,以支持第一人称感知和个性化 AI 的研究,以及隐私方面的考量。
Egocentric, multi-modal data as available on future augmented reality (AR) devices provides unique challenges and opportunities for machine perception. These future devices will need to be all-day wearable in a socially acceptable form-factor to support always available, context-aware and personalized AI applications. Our team at Meta Reality Labs Research built the Aria device, an egocentric, multi-modal data recording and streaming device with the goal to foster and accelerate research in this area. In this paper, we describe the Aria device hardware including its sensor configuration and the corresponding software tools that enable recording and processing of such data.
研究动机与目标
- 阐明需要第一人称、多模态数据以实现未来 AR 眼镜上的情境感知、个性化 AI 的必要性。
- 介绍 Project Aria 的硬件传感器套件、外形尺寸/形式,以及记录能力。
- 描述支持使用 Aria 数据进行研究的软件工具、数据格式,以及 Machine Perception Services。
- 概述指导设备与数据使用的隐私与负责任创新原则。
- 展示由 Aria 数据和服务支持的示例研究应用。
提出的方法
- 描述 Project Aria 设备硬件、传感器配置,以及时间对齐的数据流。
- 解释用于存储与回放的记录工具、配置文件以及 VRS 数据容器。
- 详细介绍 Machine Perception Services (MPS),包括轨迹、在线标定、半稠密点云和眼动追踪输出。
- 展示轨迹精度(开环与闭环)以及在现实世界条件下的定位鲁棒性。
- 概述硬件与软件中嵌入的隐私特性及负责任创新原则。
- 展示示例应用,如终身映射、第一人称场景重建和活动理解。
实验结果
研究问题
- RQ1哪些传感器配置和数据对齐策略能够支持稳健的第一人称感知研究?
- RQ2Machine Perception Services 如何从第一人称多模态数据中推导出精确的轨迹、标定和眼动?
- RQ3针对可穿戴第一人称数据的研究,哪些隐私保护措施是必要且有效的?
- RQ4使用 Project Aria 的多模态数据集和工具能够实现哪些研究应用?
主要发现
- 该设备提供高精度的 6-DoF 轨迹,开环漂移低于行进距离的 0.4%,闭环 RMSE 平移在室内尺度场景通常在 1.5 cm 以内。
- 在线标定考虑由于温度与使用情况导致的内在/外在参数随时间的变化,从而提高几何精度。
- 在个性化标定后,眼动线的中位射线误差约为 1.5°。
- 半稠密点云和轨迹使得从第一人称数据对环境有直观的理解。
- 多种记录配置在传感器保真度与功耗/带宽约束之间取得平衡,促进长期生态数据采集。
- MPS 输出和公开数据集通过提供可直接使用的第一人称轨迹、标定和凝视数据来加速研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。