[论文解读] HoME: a Household Multimodal Environment
HoME 是一个大规模、兼容 OpenAI Gym 的平台,提供具备视觉、音响、语义、物理和多智能体支持的多模态交互式三维家居环境,覆盖 45,622 个 SUNCG 房屋。
We introduce HoME: a Household Multimodal Environment for artificial agents to learn from vision, audio, semantics, physics, and interaction with objects and other agents, all within a realistic context. HoME integrates over 45,000 diverse 3D house layouts based on the SUNCG dataset, a scale which may facilitate learning, generalization, and transfer. HoME is an open-source, OpenAI Gym-compatible platform extensible to tasks in reinforcement learning, language grounding, sound-based navigation, robotics, multi-agent learning, and more. We hope HoME better enables artificial agents to learn as humans do: in an interactive, multimodal, and richly contextualized setting.
研究动机与目标
- 通过在现实情境中的交互式多模态体验,激发学习代理获取知识的能力。
- 提供一个可扩展、多样化的测试床,以改善具身 AI 的泛化和迁移。
- 提供一个与 OpenAI Gym 兼容、可扩展的平台,支持多模态(视觉、声音、语义、物理)和多智能体互动。
提出的方法
- 基于 Panda3D 的渲染引擎,用于带纹理和光照的 RGB 和深度视觉场景。
- 使用 EVERT 的光线追踪多源、多麦克风音频渲染的声学引擎。
- 语义引擎提供物体颜色、类别、材料、大小和位置,以及语义分割和描述。
- 基于 Bullet 的物理引擎,支持碰撞、重力、对象操作和代理与对象的交互。
- 一个与 OpenAI Gym 集成的 Python 框架,支持房屋随机初始化和多智能体生成。
- 设计为可扩展以适应强化学习、语言 grounding、盲导航和基于音频的学习等任务。
实验结果
研究问题
- RQ1大型多模态环境如何在视觉、声音、语义与物理方面促进虚拟具身学习?
- RQ2规模(45,622 处房屋)是否提升学习泛化能力并迁移到现实世界场景?
- RQ3在 HoME 中可以有效研究哪些类型的多模态任务(指令跟随、VQA、对话、基于声音的导航、多智能体协作)?
- RQ4将高保真音频和交互式物理整合如何影响策略学习和在现实情境中的 grounding?
主要发现
- HoME 在一个平台中提供了 3D 可视渲染、高保真音频、语义注释、物理和多智能体支持。
- HoME 基于 SUNCG 的 45,622 套房屋布局,能够提供大规模、多样化的学习与迁移环境。
- HoME 在 CPU 上的运行速度快于实时,可支持 GPU 加速,并允许多并行环境实例以更快地进行数据收集。
- 该平台兼容 OpenAI Gym,并可扩展到包括强化学习、语言 grounding、导航和具身 AI 研究在内的广泛任务。
- HoME 在强调其他模态的同时独特地强调高保真音频,便于多模态实验和新任务设计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。