[論文レビュー] ViNT: A Foundation Model for Visual Navigation
ViNTは多様な実世界データセットで訓練されたTransformerベースの視覚ナビゲーション基盤モデルで、ロボットと環境を横断したゼロショット一般化を可能にします;拡散ベースのサブゴール提案でガイドされ、新しいタスクモダリティへの微調整にも対応します。
General-purpose pre-trained models ("foundation models") have enabled practitioners to produce generalizable solutions for individual machine learning problems with datasets that are significantly smaller than those required for learning from scratch. Such models are typically trained on large and diverse datasets with weak supervision, consuming much more training data than is available for any individual downstream application. In this paper, we describe the Visual Navigation Transformer (ViNT), a foundation model that aims to bring the success of general-purpose pre-trained models to vision-based robotic navigation. ViNT is trained with a general goal-reaching objective that can be used with any navigation dataset, and employs a flexible Transformer-based architecture to learn navigational affordances and enable efficient adaptation to a variety of downstream navigational tasks. ViNT is trained on a number of existing navigation datasets, comprising hundreds of hours of robotic navigation from a variety of different robotic platforms, and exhibits positive transfer, outperforming specialist models trained on singular datasets. ViNT can be augmented with diffusion-based subgoal proposals to explore novel environments, and can solve kilometer-scale navigation problems when equipped with long-range heuristics. ViNT can also be adapted to novel task specifications with a technique inspired by prompt-tuning, where the goal encoder is replaced by an encoding of another task modality (e.g., GPS waypoints or routing commands) embedded into the same space of goal tokens. This flexibility and ability to accommodate a variety of downstream problem domains establishes ViNT as an effective foundation model for mobile robotics. For videos, code, and model checkpoints, see our project page at https://visualnav-transformer.github.io.
研究の動機と目的
- タスク固有の訓練を必要とせず、ロボットの実装や環境を横断して転移する汎用の事前学習済み視覚ナビゲーションポリシーの作成を目指す。
- 自分視点の視覚観察を用いて、Image-goalのサブゴールに到達することでナビゲーションを学習する。
- ダウンストリームのナビゲーションモダリティ(例:GPS、ルーティング指示)に対するゼロショット展開と効率的な微調整を可能にする。
- 大規模でヘテロジニアスな実世界データセットを活用して、広範なナビゲーション事前知識とエマージェント行動を誘発する。
提案手法
- 過去の観測と目標画像をトークン化する31Mパラメータのトランスフォーマーアーキテクチャを用い、相対的な目標表現のための専用のゴール融合エンコーダを備える。
- 将来の一連の行動とゴールまでの動的距離を予測する最大尤度目的でエンドツーエンドに訓練する。
- ロボットの最高速度で正規化された相対ウェイポイントに基づく実装非依存のアクション空間を採用し、実行にはPDコントローラを用いる。
- ViNTを用いて時系列距離と行動を計算し、拡散ベースのサブゴール提案を地上化することで、長期探索のためのサブゴールの空間的基盤を可能にする。
- 見知らぬ環境での長期計画と探索を支えるエピソード記憶としてトポロジックグラフプランナーを統合する。
- 新しいタスクモダリティをViNTのゴールトークン空間へマッピングする軽量なプロンプト風メカニズムを通じて新しいゴールモダリティへの適応性を示し、任意で小規模なタスク特化データセットで全モデルをエンドツーエンドで微調整する。
実験結果
リサーチクエスチョン
- RQ1ViNTは視覚ナビゲーションにおいて新しいロボットと環境へゼロショット一般化できるか?
- RQ2拡散ベースのサブゴール提案とトポロジカルプランニングを長期的な探索に統合する性能はどの程度か?
- RQ3限られたデータでViNTを新しいタスクモダリティ(例:GPSウェイポイント、ルーティング指示)に対してどれだけ効果的に微調整・適応できるか?
- RQ4ViNTは堅牢なエマージェントナビゲーション行動を示し、ナビゲーション事前知識を見聞きしないタスクへ転移できるか?
主な発見
- ViNTは訓練時に見られなかったGo 1の四足歩行ロボットを含む複数のロボットと環境で強力なゼロショット一般化を達成する。
- 拡散ベースのサブゴール提案とトポロジカルプランナーを組み合わせた場合、ViNTは室内外の目標到達タスクでベースラインを上回る(Table 1)。
- 室内GPSと屋外衛星コンテキストで、ViNTは高い成功率を達成(室内0.90、屋外0.95–1.00)し、有益な道の品質(距離は報告された例:室内91m、屋外1270mでSPL 0.84、屋外1040mでSPL 0.94)を示す。
- タスクオンデータ1時間程度でViNTを微調整すると、新しいドメイン(例:CARLAの自動運転)や新しいモダリティ(Images, Positions, Routing)で画像ゴールを超えた高い性能を実現できる。
- ViNTは共有ゴールトークン空間への軽量マッピングを介して新しいモダリティに適応でき、タスク性能を向上させるためにエンドツーエンドで微調整可能。
- エマージェントな挙動には、暗黙の衝突回避デフォルト挙動、推定されるナビゲーション嗜好(例:道路に従う、廊下を走ることを選ぶ)、動的な歩行者への頑健性が含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。