QUICK REVIEW

[论文解读] Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers

Ruihan Yang, Minghao Zhang|arXiv (Cornell University)|Jul 8, 2021

Human Pose and Action Recognition参考文献 82被引用 27

一句话总结

本文提出 LocoTransformer，一种端到端的强化学习方法，通过跨模态 Transformer 将本体感知状态与第一人称深度视觉融合，以提升四足步态控制和仿真到现实的泛化。

ABSTRACT

We propose to address quadrupedal locomotion tasks using Reinforcement Learning (RL) with a Transformer-based model that learns to combine proprioceptive information and high-dimensional depth sensor inputs. While learning-based locomotion has made great advances using RL, most methods still rely on domain randomization for training blind agents that generalize to challenging terrains. Our key insight is that proprioceptive states only offer contact measurements for immediate reaction, whereas an agent equipped with visual sensory observations can learn to proactively maneuver environments with obstacles and uneven terrain by anticipating changes in the environment many steps ahead. In this paper, we introduce LocoTransformer, an end-to-end RL method that leverages both proprioceptive states and visual observations for locomotion control. We evaluate our method in challenging simulated environments with different obstacles and uneven terrain. We transfer our learned policy from simulation to a real robot by running it indoors and in the wild with unseen obstacles and terrain. Our method not only significantly improves over baselines, but also achieves far better generalization performance, especially when transferred to the real robot. Our project page with videos is at https://rchalyang.github.io/LocoTransformer/ .

研究动机与目标

动机：动用视觉感知以主动导航不平坦地形和障碍物，超越仅依赖本体感知的控制。
提出 LocoTransformer，使用跨模态 Transformer 将本体感知状态与深度图像融合。
在具有挑战性的仿真环境和真实机器人中展示改进的步态性能和泛化能力。
探索对视觉区域和多模态代币的注意力机制如何帮助规划与鲁棒性。

提出的方法

分离的模态编码器：本体感知用 MLP，深度图像用 ConvNet。
构建多模态令牌：一个本体感知令牌加上 N×N 个视觉令牌输入到共享 Transformer。
通过堆叠的 Transformer 编码器层实现跨模态与空间注意力，以产生动作和价值输出。
通过对每种模态的令牌集合进行汇聚并将拼接特征通过 MLP 投影来平衡模态信息。
端到端地使用 PPO 进行训练，不使用分层 RL 或预设控制器。

实验结果

研究问题

RQ1视觉能否超越仅靠本体感知的控制，对四足步态策略产生贡献？
RQ2跨模态 Transformer 是否提升本体感知与视觉输入的融合，从而实现更鲁棒、可泛化的步态？
RQ3在未见环境中，该方法从仿真到真实机器人迁移的效果如何？

主要发现

LocoTransformer 在多样化的仿真地形和障碍物布局中，相较于仅本体感知和简单融合基线，提升了性能。
跨模态 Transformer 带来对未见环境的更好泛化，以及对仿真到现实的迁移，包括真实的室内和室外场景。
模型以适应场景复杂度和时间步的方式关注相关的视觉区域（障碍、地形、目标）。
增加视觉令牌数量和 Transformer 深度通常会提升性能，注意力图显示出对任务相关的关注。
在具有移动障碍物和球体的挑战性任务中，LocoTransformer 实现了更高的移动距离和更低的碰撞率，相比基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。