[論文レビュー] Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers
本論文は LocoTransformer を導入する。固有受容感覚状態と第一人称深度視覚をクロスモーダル Transformer によって融合し、四足歩行の移動と sim-to-real の一般化を改善するエンドツーエンドの強化学習手法。
We propose to address quadrupedal locomotion tasks using Reinforcement Learning (RL) with a Transformer-based model that learns to combine proprioceptive information and high-dimensional depth sensor inputs. While learning-based locomotion has made great advances using RL, most methods still rely on domain randomization for training blind agents that generalize to challenging terrains. Our key insight is that proprioceptive states only offer contact measurements for immediate reaction, whereas an agent equipped with visual sensory observations can learn to proactively maneuver environments with obstacles and uneven terrain by anticipating changes in the environment many steps ahead. In this paper, we introduce LocoTransformer, an end-to-end RL method that leverages both proprioceptive states and visual observations for locomotion control. We evaluate our method in challenging simulated environments with different obstacles and uneven terrain. We transfer our learned policy from simulation to a real robot by running it indoors and in the wild with unseen obstacles and terrain. Our method not only significantly improves over baselines, but also achieves far better generalization performance, especially when transferred to the real robot. Our project page with videos is at https://rchalyang.github.io/LocoTransformer/ .
研究の動機と目的
- 固有受容感覚のみの制御を超えた、不整地や障害物を積極的に回避するための視覚センサの活用を動機づける。
- クロスモーダル Transformer を用いてプロプリオセプティブ状態と深度画像を融合する LocoTransformer を提案する。
- 難易度の高いシミュレーション環境と実機ロボットにおける移動性能と一般化の改善を示す。
- 視覚領域への注意機構とマルチモーダルトークンが計画と堅牢性にどのように寄与するかを探る。
提案手法
- 別々のモダリティエンコーダ: プロプリオセプションには MLP、深度画像には ConvNet。
- マルチモーダル・トークンを構築: 1 つのプロプリオセプティブ・トークンと N×N のビジュアル・トークンを共有 Transformer に入力。
- 積み重ねられた Transformer エンコーダ層を通じてクロスモーダルおよび空間的注意を有効化し、アクションと価値出力を生成。
- モダリティごとにトークン集合をプーリングして情報のバランスを取り、連結特徴を MLP を通して射影。
- PPO でエンドツーエンドに学習し、階層的 RL や事前定義されたコントローラは使用しない。
実験結果
リサーチクエスチョン
- RQ1視覚はプロプリオセプティブのみの制御を超える四足歩行方針に寄与できるか?
- RQ2クロスモーダル Transformer は、固有受容と視覚入力の統合を改善し、堅牢で一般化可能な移動を実現するか?
- RQ3未知の環境でのシミュレーションから実機ロボットへの適用性はどの程度か?
主な発見
- LocoTransformer は、プロプリオセプションのみおよび単純な融合ベースラインよりも、さまざまなシミュレーション地形と障害物配置で性能を向上させる。
- クロスモーダル Transformer は、未見環境および sim-to-real 転移、室内外の実環境を含む一般化を向上させる。
- モデルは、障害物・地形・ゴールなどの関連視覚領域に、シーンの複雑さと時間ステップに適応する形で注意を払う。
- 視覚トークン数と Transformer の深さを増やすと、一般に性能が向上し、アテンションマップはタスクに関連する焦点を示す。
- 動く障害物と球体を含む難易度の高いタスクで、LocoTransformer はベースラインより移動距離が大きく、衝突は少ない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。