[論文レビュー] HomeRobot: Open-Vocabulary Mobile Manipulation
オープンボキャブラリ・モバイル操作(OVMM)を定義し、Hello Robot Stretchを用いたオープンな物体セットでのエンドツーエンドのモバイル操作を評価するための再現可能なベンチマークとソフトウェアスタック(シミュレーションと実世界)を提供し、sim-to-real転送を概ね20%の現実世界の成功率で達成するベースラインを報告する。
HomeRobot (noun): An affordable compliant robot that navigates homes and manipulates a wide range of objects in order to complete everyday tasks. Open-Vocabulary Mobile Manipulation (OVMM) is the problem of picking any object in any unseen environment, and placing it in a commanded location. This is a foundational challenge for robots to be useful assistants in human environments, because it involves tackling sub-problems from across robotics: perception, language understanding, navigation, and manipulation are all essential to OVMM. In addition, integration of the solutions to these sub-problems poses its own substantial challenges. To drive research in this area, we introduce the HomeRobot OVMM benchmark, where an agent navigates household environments to grasp novel objects and place them on target receptacles. HomeRobot has two components: a simulation component, which uses a large and diverse curated object set in new, high-quality multi-room home environments; and a real-world component, providing a software stack for the low-cost Hello Robot Stretch to encourage replication of real-world experiments across labs. We implement both reinforcement learning and heuristic (model-based) baselines and show evidence of sim-to-real transfer. Our baselines achieve a 20% success rate in the real world; our experiments identify ways future research work improve performance. See videos on our website: https://ovmm.github.io/.
研究の動機と目的
- 知覚、ナビゲーション、操作を組み合わせたオープンワールドの物体セットを用いた、家庭内ロボット課題としてOVMMを動機付け、公式化する。
- 再現可能な研究を促進するため、シミュレーションと現実世界の両方で再利用可能なベンチマークとインフラストラクチャを提供する。
- ヒューリスティック計画と RL のベースライン手法を示し、ナビゲーションと配置スキルの sim-to-real 転送を評価する。
- 標準化されたハードウェアスタックと API を通じたクロスラボ再現性と比較を可能にする。
提案手法
- OVMMタスクを導入:スタート受け皿からゴール受け皿へ、未知の単一階建ての家でオープンボキャブラリ物体セットを用いて移動。
- Habitatを用いた60シーンのシミュレーションデータセットを作成し、HSSDから、129カテゴリ、21受け皿カテゴリの多様な2,535個の物体を含む。学習/検証/テストの splits を定義、見られた/未見のカテゴリとインスタンスを含む。
- 現実世界のベンチマーク環境(制御されたアパート)と低コストの Hello Robot Stretch プラットフォームを提供し、再現可能な実験を可能にする。
- シミュレーションと現実世界の同一APIを持つ HomeRobot ライブラリを実装し、エンドツーエンドのベンチマーキングとモジュール化されたベースラインを可能にする。
- 2つのベースライン方針を開発:物体マスクに DETIC を用いたヒューリスティックな運動計画ベースラインと、深度、セグメンテーション、および自己運動感覚入力で DDPPO で訓練した RL ベースライン。
- 認識(真実値 vs DETIC)、 navigation、視線、把持、配置のサブスキルを評価し、sim-to-realのギャップを分析。

実験結果
リサーチクエスチョン
- RQ1オープンボキャブラリ物体を含む家庭環境で、シミュレーションと現実世界の双方で OVMM をどう定義しベンチマークできるか?
- RQ2OVMM タスクでヒューリスティックと RL のベースラインの性能はどうか、認識品質(真値 vs DETIC)は結果にどう影響するか?
- RQ3OVMM のナビゲーションと配置スキルの sim-to-real 転送はどの程度実現できるか?
- RQ4認識、ナビゲーション、操作のボトルネックは何か、統一されたロボティクススタックはそれらをどう解決できるか?
主な発見
- RL ベースラインはシミュレーションのナビゲーションと配置でヒューリスティック法より優れているが、認識品質はすべての手法の性能に著しく影響する。
- 真値認識は DETIC ベース認識より高い成功率を示し、認識が主要なボトルネックであることを示唆。
- シミュレーションでは、部分的および全体の成功率は真値セグメンテーションを用いた RL がヒューリスティックベースラインより高い score を示す;DETIC セグメンテーションは両方のアプローチの性能を低下させる。
- 現実世界の実験では、RL が全体の成功率20%を達成し、ヒューリスティックベースラインを5ポイント上回り、ピックと配置のサブタスクの改善によって推進された。
- オープンボキャブラリモデル(DETIC)からの検出は誤分類の失敗を引き起こし、シミュレートと現実世界の両方の性能に substantial に影響を与える。
- HomeRobot OVMMスタックは、シミュレーションと実機のエンドツーエンドのベンチマーキングを再現性を持って可能にし、sim-to-realのギャップと統一フレームワークの重要性を浮き彫りにする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。