QUICK REVIEW

[论文解读] Embodied Visual Recognition

Jianwei Yang, Zhile Ren|arXiv (Cornell University)|Apr 9, 2019

Multimodal Machine Learning Applications参考文献 63被引用 21

一句话总结

本文提出了具身视觉识别（Embodied Visual Recognition, EVR），这是一种新任务，即智能体在3D环境中主动移动以改善对被遮挡物体的视觉识别。作者提出了具身Mask R-CNN模型，该模型学习策略性移动策略以增强非完整检测与分割，其性能优于被动基线模型，并学习到非最短路径的轨迹，同时保持稳定的物体视图大小。

ABSTRACT

Passive visual systems typically fail to recognize objects in the amodal setting where they are heavily occluded. In contrast, humans and other embodied agents have the ability to move in the environment, and actively control the viewing angle to better understand object shapes and semantics. In this work, we introduce the task of Embodied Visual Recognition (EVR): An agent is instantiated in a 3D environment close to an occluded target object, and is free to move in the environment to perform object classification, amodal object localization, and amodal object segmentation. To address this, we develop a new model called Embodied Mask R-CNN, for agents to learn to move strategically to improve their visual recognition abilities. We conduct experiments using the House3D environment. Experimental results show that: 1) agents with embodiment (movement) achieve better visual recognition performance than passive ones; 2) in order to improve visual recognition abilities, agents can learn strategical moving paths that are different from shortest paths.

研究动机与目标

探究具身（主动移动）是否以及如何在遮挡的、类真实世界的3D环境中提升视觉识别性能。
构建一个统一的基准，用于评估遮挡条件下的视觉识别，包括物体分类、非完整定位与非完整分割。
训练智能体学习策略性移动——超越最短路径——以获取更具信息量的视角，从而更好地识别部分可见的物体。
设计一个联合学习框架，使感知与导航策略在共享监督下端到端联合训练，从而实现与被动模型的公平比较。
证明在复杂场景中，策略性移动（而非仅靠近物体）对于实现稳健的非完整感知至关重要。

提出的方法

所提出的具身Mask R-CNN通过引入循环网络，将智能体移动过程中获取的序列视觉特征进行聚合，从而扩展了Mask R-CNN。
策略网络接收当前及历史视觉特征，以预测动作（如前进、旋转、左右移动），实现目标导向的导航。
采用分阶段训练策略：首先在静态图像上预训练感知头，随后通过模仿学习与强化学习微调完整模型。
智能体被训练为利用后续移动中收集的信息，在第一帧上做出预测，从而实现时间维度上的特征聚合。
环境使用House3D，智能体初始位置靠近被遮挡的目标物体，奖励基于识别性能（分类、非完整边界框、非完整掩码）设定。
模型使用与被动模型相同的监督信号进行训练，确保在相同测试集上的公平比较。

实验结果

研究问题

RQ1与仅从单张图像进行被动识别相比，主动移动是否能显著提升对遮挡物体的视觉识别性能？
RQ2在优化视觉识别目标时，智能体是否学习到与最短路径不同的移动策略？
RQ3在移动过程中保持恒定的物体视图大小是否能带来更好的识别性能？
RQ4联合训练的感知与策略网络是否能优于将感知与导航视为独立任务的模型？
RQ5是否可能在无显式示范的情况下，学习到有效的、非专家级的移动策略以用于视觉识别？

主要发现

具备具身能力的智能体在物体分类、非完整定位与非完整分割任务上的表现显著优于被动模型，即使两者使用相同的监督信号进行训练。
所学习的策略生成的移动轨迹与最短路径有本质不同，常包含后退动作与稳定的观察距离。
采用所学习策略的智能体能将与目标物体的距离维持在几乎恒定的水平，从而在帧间保持一致的物体尺寸，提升识别稳定性。
所学习策略中动作分布显示前向移动极少，而后退与旋转动作频繁，表明其通过策略性重定位实现更优的视角整合。
智能体通过战略性移动成功揭示隐藏区域，从而感知到被遮挡物体的完整形状与语义信息，证明了主动感知的价值。
消融实验证实，感知与策略的联合训练至关重要，解耦训练会导致性能次优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。