QUICK REVIEW

[论文解读] Building Generalizable Agents with a Realistic and Rich 3D Environment

Yi Wu, Yuxin Wu|arXiv (Cornell University)|Jan 7, 2018

Multimodal Machine Learning Applications被引用 253

一句话总结

本文介绍 House3D，一个基于 SUNCG 构建的大规模、真实的 3D 室内环境，用于训练/基准语义导航代理，并证明多级数据增强能使对未见房屋的泛化能力更好。

ABSTRACT

Teaching an agent to navigate in an unseen 3D environment is a challenging task, even in the event of simulated environments. To generalize to unseen environments, an agent needs to be robust to low-level variations (e.g. color, texture, object changes), and also high-level variations (e.g. layout changes of the environment). To improve overall generalization, all types of variations in the environment have to be taken under consideration via different level of data augmentation steps. To this end, we propose House3D, a rich, extensible and efficient environment that contains 45,622 human-designed 3D scenes of visually realistic houses, ranging from single-room studios to multi-storied houses, equipped with a diverse set of fully labeled 3D objects, textures and scene layouts, based on the SUNCG dataset (Song et.al.). The diversity in House3D opens the door towards scene-level augmentation, while the label-rich nature of House3D enables us to inject pixel- & task-level augmentations such as domain randomization (Toubin et. al.) and multi-task training. Using a subset of houses in House3D, we show that reinforcement learning agents trained with an enhancement of different levels of augmentations perform much better in unseen environments than our baselines with raw RGB input by over 8% in terms of navigation success rate. House3D is publicly available at http://github.com/facebookresearch/House3D.

研究动机与目标

为在多样化房间和物体的未见 3D 环境中实现代理的泛化需求提供动机。
从 SUNCG 派生，创建一个大型、多样、带标签丰富的环境（House3D），以研究语义导航。
将 RoomNav 发展为一个以概念驱动的导航基准，以测试泛化能力。
提出门控注意力策略架构，以处理导航任务中的多目标条件化。
评估像素级、任务级和场景级增强如何提升对未见环境的泛化。

提出的方法

从 SUNCG 构建 House3D，提供 45,622 个场景，涵盖 80+ 个物体类别，并提供多模态观测（RGB、深度、分割、俯视图地图）。
定义 RoomNav：在给定指令 I 的情况下，导航到目标语义概念（例如 kitchen），在未见的房子中进行评估。
使用门控 CNN（DDPG）和门控 LSTM（A3C）策略，通过门控机制对目标概念进行条件化，以实现特征融合。
应用像素级（域随机化）、任务级（辅助目标）和场景级（更大的环境集合）增强来提升泛化。
比较 RGB-only、RGB+Depth 和 Mask+Depth 输入，显示深度/语义输入改善鲁棒性与泛化。
使用标准强化学习算法（DDPG、A3C）进行训练，并在训练中使用奖励塑形来引导学习。

实验结果

研究问题

RQ1不同输入模态（RGB、Depth、语义掩码）对未见 3D 环境的泛化有何影响？
RQ2像素级、任务级和场景级增强在 RoomNav 的泛化中各自及共同的影响？
RQ3门控注意力策略是否能在多目标导航中有效对高层语义目标进行条件化？
RQ4增加环境多样性（场景级增强）是否降低过拟合并提升未见环境的成功率？
RQ5在 RoomNav 中，深度/语义信号相较于仅 RGB 输入的性能提升有多大？

主要发现

最终的门控 LSTM 智能体结合语义信号在 50 个未见环境中的成功率为 35.8%，比基线 25.7% 高约 10%。
深度和语义分割输入在泛化上优于仅 RGB 的输入。
通过域随机化实现的像素级增强在较小数据集上取得的改进与分割掩码相当。
带辅助目标的任务级增强降低了过拟合并提升了 RGB 输入的泛化。
通过在更大、更多样的房子集合上进行训练的场景级增强显著降低了过拟合并提升了测试性能。
在不同输入下，基于 LSTM 的策略在更大、复杂的训练集上优于基于 CNN 的策略，显示记忆对泛化的好处。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。