QUICK REVIEW

[论文解读] Semantic Visual Navigation by Watching YouTube Videos

Matthew Chang, Arjun Gupta|arXiv (Cornell University)|Jun 17, 2020

Multimodal Machine Learning Applications参考文献 62被引用 23

一句话总结

该论文提出视频价值学习（VLV），一种利用非结构化YouTube视频在无需人类标注动作或目标的情况下学习语义视觉导航策略的方法。通过使用逆动力学模型对动作进行伪标签化，并在视频转换四元组（图像、动作、下一帧图像、奖励）上应用Q-learning，该方法学习到的值函数能够编码空间规律，在ObjectGoal导航任务中，相较于端到端强化学习与模仿学习，实现了15–83%的相对性能提升，且真实世界交互极少。

ABSTRACT

Semantic cues and statistical regularities in real-world environment layouts can improve efficiency for navigation in novel environments. This paper learns and leverages such semantic cues for navigating to objects of interest in novel environments, by simply watching YouTube videos. This is challenging because YouTube videos don't come with labels for actions or goals, and may not even showcase optimal behavior. Our method tackles these challenges through the use of Q-learning on pseudo-labeled transition quadruples (image, action, next image, reward). We show that such off-policy Q-learning from passive data is able to learn meaningful semantic cues for navigation. These cues, when used in a hierarchical navigation policy, lead to improved efficiency at the ObjectGoal task in visually realistic simulations. We observe a relative improvement of 15-83% over end-to-end RL, behavior cloning, and classical methods, while using minimal direct interaction.

研究动机与目标

仅使用非结构化YouTube视频，在无需人类标注动作或目标的情况下，实现在新环境中的零样本语义视觉导航。
解决从缺乏动作标签、目标注释或最优轨迹的视频中进行学习的挑战。
通过利用第一人称视频序列中的视觉共现模式，学习有意义的语义线索（如室内布局中的空间规律）。
通过从互联网规模的视频数据中预训练值函数，提升视觉导航的样本效率与泛化能力。
证明基于策略的Q-learning在伪标签化视频数据上可生成优于端到端强化学习与行为克隆的导航策略。

提出的方法

利用在40,000个真实世界交互样本上训练的逆动力学模型生成动作的伪标签，从而实现从连续视频帧中预测动作。
通过现成的目标检测器获取目标标签，根据目标物体（如马桶、床）在帧中的存在情况进行分类。
在转换四元组（图像、动作、下一帧图像、奖励）上应用Q-learning框架，其中奖励为基于下一帧中目标检测结果的二值信号。
由此产生的Q值用于构建隐式编码语义线索的值函数——例如，在可能通向目标物体的方向上值更高，即使目标物体不可见。
分层导航策略利用学习到的值函数，引导低层运动控制器在新环境中朝向语义目标前进。
在使用ObjectGoal基准的视觉真实感仿真环境中评估该方法，并通过消融实验评估其对噪声和数据模态的鲁棒性。

实验结果

研究问题

RQ1能否在无动作或目标标注的情况下，有效从非结构化YouTube视频中预训练语义视觉导航策略？
RQ2在伪标签化视频转换上应用Q-learning，能在多大程度上学习到有助于提升导航效率的有意义空间规律？
RQ3从视频中学习到的值函数在零样本泛化到新环境时，与端到端强化学习和行为克隆相比，性能如何？
RQ4数据模态（合成数据 vs. YouTube视频）以及轨迹中的噪声对策略泛化能力和成功率有何影响？
RQ5从被动视频数据中学习到的值函数能否隐式编码语义线索，如物体接近度与空间布局模式？

主要发现

所提出的VLV方法在ObjectGoal基准上，相较于端到端强化学习与行为克隆，成功率达到15–83%的相对提升，SPL表现亦有显著提高。
在YouTube视频上进行训练时，该方法在整体ObjectGoal任务上实现了0.40 ± 0.06的SPL，优于行为克隆（0.30 ± 0.05 SPL），并达到强监督基线的水平。
从YouTube视频中学习到的值函数在新环境中具有良好的泛化能力，高值区域随距离目标物体的远近平滑衰减，如S4.4节可视化所示。
消融实验表明，使用真实动作标签（真实动作）或真实目标检测结果可略微提升性能，但该方法对噪声视频数据仍保持鲁棒性。
在分支环境中，基于Q-learning的值函数优于通过TD(0)和蒙特卡洛方法进行策略评估，能正确识别最优路径，而其他方法失败（图S8）。
在360°全景视频上进行训练可进一步提升性能（整体SPL: 0.47 ± 0.02），表明更丰富的视觉上下文有助于值函数学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。